数据治理不足、不良数据、数据团队与业务缺乏一致性……
我发现在很多公司都会反复出现这些问题。
如果忽略它们,长时间下来,企业使用数据的能力以及对数据团队的信任,也会随之降低。
今天的文章里,我将会讨论其中的一些问题,并根据自己的经验,给出相对应帮助改善整体数据生命周期的解决方案。
数据的不一致
不同业务的工作流程有所差异,难以避免的会将相同的数据输入到多个位置。一个团队可能在业务流程里使用Salesforce,另一个则可能是使用Workday。
这就可能导致每个步骤中输入的数据不一致。
不管是因为时间安排还是人为错误造成的,都不是重点。重要的是这些不一致如果在公司的各种数据仓库里存在,就会对报告产生不小的影响。
但无论公司的规模或数据成熟度如何,都很难避免这个问题。
解决方案1:设置数据治理策略
数据治理包括管理数据的可用性、完整性和安全性。
你怎么决定部署数据治理策略的方式,取决于你想有一个紧密集中式的数据流程,还是分散独立的,偶尔集中一下但核心数据模型不会重叠的流程。
数据治理不是数据科学或者机器学习,但它是这两者的基础。如果对获得真相的核心来源把控不足,会导致制定出很多相互矛盾的策略。
解决方案2:组建数据团队以快速制定决策
对于大公司而言,考虑建立一个核心数据团队,他们唯一的重点是开发和管理数据集。而对于规模较小的公司,可以设置相应的岗位。
这样,当需要根据真实性以及数据完整性的来源做出决策时,就可以迅速得到答案,而不是组织多个团队集中召开会议。
可视化图表太多,但目的不明确
有些公司存在很多可视化图表,这些不一定是跟某个业务事项有关,甚至对决策可能毫无帮助,仅仅就是一种数据展示,有时候还都是虚荣指标。
做一个可视化图表,应该是对解决某个问题有所帮助,而不是为了做而做。
解决方案:问自己为什么要做可视化图表
为了避免过多无意义的可视化图表,首先就要清楚这样做的主要目的。
往往在公司里面,都是经理或者主管要求的,而不是经过深思熟虑、有所计划的。这些可视化图表可能使用一次,或者几个月,然后就被忘了,不就相当于做了无用功?
试试先别急着去做,问清楚为什么以避免这种情况。
试图在没有可行措施的情况下分析太多数据
我注意到一种较常见的情况,就是大多数公司拥有了一定规模和复杂性的数据量之后,不知道怎么处理了,超出了他们所知道的处理方式的范围。
这可能就会导致一些问题。
一些公司试图在大型数据仓库项目中,一次性从每个数据源中提取所有数据。这不但费钱还费时,并且结果可能也不会太好。
公司最终将花费数十万至数百万美元来开发数据仓库,才意识到这会花费两年的时间,两倍的预算。
解决方案:进行小规模,快速的数据战役
与其尝试一次获取所有数据,不如找出自己公司想了解更多信息的几个关键领域。
然后制定一个计划,以解决这些问题,不管是可视化图表、报告还是其他的东西。
公司应该在计划数据仓库的设计上花费大量时间,主要实体,数据治理等。
但是,如果花了太多时间进行规划,并且只是建立框架,可能管理层的耐心很快就被消耗完了。
因此,在此过程中不断取得一些小的胜利这种方式,可以保持着大家的动力。
使用低质量和不完整的数据
你用的是垃圾数据,得到的也会是垃圾。
如果你在数据行业工作了一段时间,对这句话应该不陌生。
基于错误的数据去做决定,看上去很好但实际上都是错误的。
我之前看到很多公司花了数月甚至数年时间坚持使用的数据,大家都认为是正确的,不会产生质疑。但事实上,经过一点点挖掘,他们就会发现使用的数据并不完整,也不准确、不可信。
每个公司都有坏数据。
唯一的问题是:他们是否使用它来做数百万美元的决策?
解决方案1:创建自动化的质量检查系统
数据通常是由人工输入,这就会增加出错的几率。
因此,需要开发某种形式的自动化数据质量检查系统去处理那些错误。
在大多数系统中,数据太大而无法手动检查时,有一个解决方案。
将大多数所做的数据质量检查记录下来,并且放入自动质量检查系统中。这样可以节省公司数百至数千小时的时间,还能够提高准确性。
这些检查可以是直接进行的数据检查,当然,需要确保输入的所有国家都是真实的;也可以是更具动态性的检查,如进行测试以确保每月总支出保持在特定范围内。
总体而言,进行这些检查会非常有帮助。
解决方案2:始终使用集成测试
在开发仪表盘时,尤其是具有计算字段,混合数据集和过滤器的仪表盘时,应该创建集成测试,以确保仪表盘工具中的逻辑不会更改初始数据。
就个人而言,我觉得应该尽可能的将逻辑放在一个区域,例如查询本身。
有时候会习惯性忘了这点,团队还是应该确保自己在仪表板上看到的数据与输入的数据匹配。
此外,可以使用许多简单的集成测试。例如,你知道数据集应包含1,000个人。然后,建立一个基本的集成仪表板,该仪表板可以统计数据集中有多少人。一旦开始在Tableau中使用混合功能,这一点尤其重要。
如果不仔细考虑最终数据,可能会导致很多问题。为了避免这些出现,最好考虑一些基本的集成测试。
结论
利用数据做出更好的决策可以为公司带来竞争优势。
但是,数据质量和数据流程设置的稳定性会影响你的数据策略是否成功。
仅创建仪表板,数据仓库和机器学习模型并不足以做出由数据驱动的决策。
还需要考虑其数据生命周期以及用于管理每个步骤的流程。创建测试用例,明确目标和流程,可以帮助改善团队的执行和策略。
没有人愿意被太多流程或者政策所牵制,但是没有数据生命周期的计划或者策略,毫无疑问最终会失败。
来源: