哪些错误正在破坏你的数据驱动策略?

数据治理不足、不良数据、数据团队与业务缺乏一致性……

我发现在很多公司都会反复出现这些问题。

如果忽略它们,长时间下来,企业使用数据的能力以及对数据团队的信任,也会随之降低。

今天的文章里,我将会讨论其中的一些问题,并根据自己的经验,给出相对应帮助改善整体数据生命周期的解决方案。

数据的不一致

不同业务的工作流程有所差异,难以避免的会将相同的数据输入到多个位置。一个团队可能在业务流程里使用Salesforce,另一个则可能是使用Workday。

这就可能导致每个步骤中输入的数据不一致。

不管是因为时间安排还是人为错误造成的,都不是重点。重要的是这些不一致如果在公司的各种数据仓库里存在,就会对报告产生不小的影响。

但无论公司的规模或数据成熟度如何,都很难避免这个问题。

解决方案1:设置数据治理策略

数据治理包括管理数据的可用性、完整性和安全性。

你怎么决定部署数据治理策略的方式,取决于你想有一个紧密集中式的数据流程,还是分散独立的,偶尔集中一下但核心数据模型不会重叠的流程。

数据治理不是数据科学或者机器学习,但它是这两者的基础。如果对获得真相的核心来源把控不足,会导致制定出很多相互矛盾的策略。

解决方案2:组建数据团队以快速制定决策

对于大公司而言,考虑建立一个核心数据团队,他们唯一的重点是开发和管理数据集。而对于规模较小的公司,可以设置相应的岗位。

这样,当需要根据真实性以及数据完整性的来源做出决策时,就可以迅速得到答案,而不是组织多个团队集中召开会议。

可视化图表太多,但目的不明确

有些公司存在很多可视化图表,这些不一定是跟某个业务事项有关,甚至对决策可能毫无帮助,仅仅就是一种数据展示,有时候还都是虚荣指标。

做一个可视化图表,应该是对解决某个问题有所帮助,而不是为了做而做。

解决方案:问自己为什么要做可视化图表

为了避免过多无意义的可视化图表,首先就要清楚这样做的主要目的。

往往在公司里面,都是经理或者主管要求的,而不是经过深思熟虑、有所计划的。这些可视化图表可能使用一次,或者几个月,然后就被忘了,不就相当于做了无用功?

试试先别急着去做,问清楚为什么以避免这种情况。

试图在没有可行措施的情况下分析太多数据

我注意到一种较常见的情况,就是大多数公司拥有了一定规模和复杂性的数据量之后,不知道怎么处理了,超出了他们所知道的处理方式的范围。

这可能就会导致一些问题。

一些公司试图在大型数据仓库项目中,一次性从每个数据源中提取所有数据。这不但费钱还费时,并且结果可能也不会太好。

公司最终将花费数十万至数百万美元来开发数据仓库,才意识到这会花费两年的时间,两倍的预算。

解决方案:进行小规模,快速的数据战役

与其尝试一次获取所有数据,不如找出自己公司想了解更多信息的几个关键领域。

然后制定一个计划,以解决这些问题,不管是可视化图表、报告还是其他的东西。

公司应该在计划数据仓库的设计上花费大量时间,主要实体,数据治理等。

但是,如果花了太多时间进行规划,并且只是建立框架,可能管理层的耐心很快就被消耗完了。

因此,在此过程中不断取得一些小的胜利这种方式,可以保持着大家的动力。

使用低质量和不完整的数据

你用的是垃圾数据,得到的也会是垃圾。

如果你在数据行业工作了一段时间,对这句话应该不陌生。

基于错误的数据去做决定,看上去很好但实际上都是错误的。

我之前看到很多公司花了数月甚至数年时间坚持使用的数据,大家都认为是正确的,不会产生质疑。但事实上,经过一点点挖掘,他们就会发现使用的数据并不完整,也不准确、不可信。

每个公司都有坏数据。

唯一的问题是:他们是否使用它来做数百万美元的决策?

解决方案1:创建自动化的质量检查系统

数据通常是由人工输入,这就会增加出错的几率。

因此,需要开发某种形式的自动化数据质量检查系统去处理那些错误。

在大多数系统中,数据太大而无法手动检查时,有一个解决方案。

将大多数所做的数据质量检查记录下来,并且放入自动质量检查系统中。这样可以节省公司数百至数千小时的时间,还能够提高准确性。

这些检查可以是直接进行的数据检查,当然,需要确保输入的所有国家都是真实的;也可以是更具动态性的检查,如进行测试以确保每月总支出保持在特定范围内。

总体而言,进行这些检查会非常有帮助。

解决方案2:始终使用集成测试

在开发仪表盘时,尤其是具有计算字段,混合数据集和过滤器的仪表盘时,应该创建集成测试,以确保仪表盘工具中的逻辑不会更改初始数据。

就个人而言,我觉得应该尽可能的将逻辑放在一个区域,例如查询本身。

有时候会习惯性忘了这点,团队还是应该确保自己在仪表板上看到的数据与输入的数据匹配。

此外,可以使用许多简单的集成测试。例如,你知道数据集应包含1,000个人。然后,建立一个基本的集成仪表板,该仪表板可以统计数据集中有多少人。一旦开始在Tableau中使用混合功能,这一点尤其重要。

如果不仔细考虑最终数据,可能会导致很多问题。为了避免这些出现,最好考虑一些基本的集成测试。

结论

利用数据做出更好的决策可以为公司带来竞争优势。

但是,数据质量和数据流程设置的稳定性会影响你的数据策略是否成功。

仅创建仪表板,数据仓库和机器学习模型并不足以做出由数据驱动的决策。

还需要考虑其数据生命周期以及用于管理每个步骤的流程。创建测试用例,明确目标和流程,可以帮助改善团队的执行和策略。

没有人愿意被太多流程或者政策所牵制,但是没有数据生命周期的计划或者策略,毫无疑问最终会失败。

来源:

https://medium.com/better-programming/the-5-mistakes-ruining-your-data-driven-strategy-ff76c5c448c6,有所删减以及修改

发表评论

邮箱地址不会被公开。 必填项已用*标注