如何跳出数据分析工作中的坑?

每个行业都有或深或浅的“坑”,数据行业亦是。作为数据从业者,如何应对这些“坑”?

《python数据分析与数据化运营》等多部畅销书作者宋天龙、触脉咨询副总裁及合伙人张默宇。两位身为在数据行业摸爬滚打多年的资深人士,在3月日的“触脉123”线上直播节目中分享了自己的经验。

踩坑系列之一:数据混乱、缺失

避坑观点总结:

宋天龙老师

“遇到数据混乱和缺失,怎么做数据分析?”在这个问题中包含两方面。一方面,在这里,数据分析指的是数据的初步洞察,或者探索性的分析过程。另一方面,包含数据混乱、缺失两种角度。

第一个方面,建议各位做三类事情。

第一类,了解整个数据的基本情况。看一下每个字段,特别是你要做的重点维度的数据分布值域,它有多少条记录,缺失值会有多少,确认有效的值的记录和有效的列的记录等等。这件事情比较关键,因为除了能掌握数据基本分布情况外,对后期做数据的特征转化、处理、建模等具有很好的提前预测的作用。

第二类,结合业务情况进行分析。比如我们做客户的行为分析,那么数据里面很可能关于客户行为分析的会比较多。不管是一个浏览,还是下了订单,或者意外事件。因为这个过程会有一些异常客户,举个例子,某个客户在某个时间内来的特别多,就会导致产生很多这类数据。

对于这种情况下的数据,如果用第一类的方法看,就不算特别异常。但如果把客户的数据单拎出来,互动量也好,交互程度也好,尤其根据交互程度做一些得分的评估,你就会发现它的整个值特别大,导致如果按这种客户的力度去做聚合,后面的数据会受比较大的影响。因为整个客户的极大值,会把整个数据的区间拉向极大值的一边。

第三类,数据中可能会有低质量数据或者噪音数据。比如流量采集中的重复采集、流量作弊导致的低质量数据。

第二个方面,数据缺失、数据混乱两种情况相比而言,处理数据混乱会比较棘手。因为每个供应商有各自的逻辑,尤其供应商数量不低的时候,后期清洗会很麻烦。遇到这种情况,先把各种场景逻辑进行梳理,其次统一成规则。

上述的基本分析后,尽量不要遗漏这一步。如果你已经发现明显的数据问题时,要及时反馈数据上游(从哪儿拿的数据就反馈到哪儿)。这样做的目的是,减少后期再次掉进同样的坑里,遇到同样的问题。

张默宇老师

“数据缺失、混乱”这个问题可以反向推导出另一个坑,就是数据分析师们在拿到数据后,不经过校验就开始分析。这样做的后果就是最终得出的结论很大程度上失真。想要避免此类情况,牢记一点——检验。

避坑指南一:

  • 首先调整好心态,其次具备扎实的数据专业能力
  • 拿到数据后,先进行校验

踩坑系列之二:需求不清晰

避坑观点总结:

宋天龙老师

两个基本原则:

一是围绕业务方需要分析的主题,提供2-3个分析点实例。注意一点,实例不用太多,选择太多就等同于没有选择。

二是控制自己的投入成本,不管是时间、精力还是其他的机会成本上。因为有时候业务方说的需求,随口一说的情况较为常见。这种情况下,他们并没想清楚如何落地,就会导致你白做数据分析。

张默宇老师

两个原则,三种方式。

一个大原则,绝对不可以接到需求就立刻开始。第二则是通过一些方法引导对方逐步确认目标。

如何做到第二个原则?三种方式。

一、了解硬性的条件。

比如说要分析的数据起止时间段,预计需要多长的篇幅,哪些内容希望一定要看到等。通过类似这些硬性问题的限制条件的了解,推测报告给谁看,进一步清楚报告该如何去写。

二、了解最近公司包括发生的主要的事件。推测出需求方业务发展的重点。

三、提供一些可供选择的撰写范围、分析范围。

这种方法需要分析师们学会“聪明的主动”。什么叫聪明的主动?在了解基本背景信息、业务重点后,分析师可以出两版略有差异的草稿做对比,帮助需求方确定自己所需的要求。这能帮助需求方更好的确定自己的要求。

避坑指南二:

数据分析师在具备专业能力以外,应该进行专门的问题解读、沟通能力的训练。

下面列举的几类“坑”,不管甲方、还是乙方的数据分析师都会感到困扰,但立场并不同。所以将从甲乙两方的角度分别进行解读,以便帮助各位思考问题更加全面。

踩坑系列之三:选购数据分析产品易踩的坑有哪些?

避坑观点总结:

甲方视角——宋天龙老师

对甲方来说,最浪费的就是公司买了最好的产品,但终端用户不会用。

这种情况之所以发生,皆因采购时没有考虑到用户这个因素。下面将分享甲方在选购数据分析产品时,需要注意的5个点。

首先,清楚谁需要数据产品?大多数情况下是数据分析部门的需求,但也存在业务部门需要的情况。不同的部门立场不同,需求自然不一样。

其次是功能,掌握一点,那就是适合最重要。

很多时候解决问题,反而是较普通,或者用的比较熟的技术。以推荐为例,大家通常会讨论DNN(深度神经网算法)、EMBEDDING(数学上表示一个maping, f: X -> Y, 也就是一个function,其中该函数是injective(单射函数,每个Y只有唯一的X对应,反之亦然)和structure-preserving (结构保存,比如在X所属的空间上X1 < X2,映射后在Y所属空间上同理 Y1 < Y2))一类的。

坦白讲,中国可能有99%的公司不适合这样做。首先企业没有一定数量的服务器支撑;其次,需要100万的硬件预算;此外,需要培养一定数量的技术人员支持;接着还要做开发。整个过程下来,预算+人员成本+时间成本,大多数企业难以承受。

第3则是服务,一般包括固定服务(产品功能、报告、答疑等)和不固定服务(突发需求)。在这里,有个重要的点——支持方式,一般是远程支持(电话、邮件等),相对来说,驻场的方式效果较好些。

第4点费用。任何一个产品,功能和费用都是成正比的。在平衡这两点的时候,有一点容易忽略——其他费用。举个例子,初期产品用着挺好,后期要求提高,想做个二次开发、升级等,如果产品本身不支持,那就需要额外的费用支出。

最后一点,是用户视角。用户能否快速使用它,是衡量是否采购的一个重要原则。

乙方视角——张默宇老师

关于选购数据产品这个问题,乙方涉及两种场景:一是客户直接向你采购一套服务方案,另一种场景可能涉及到你帮助客户去选择一些服务方案的组合。

不管遇到以上哪种场景,首先要明确初衷,即了解用户选购产品的初衷是什么?

其次,作为乙方,必须跟客户沟通清楚以下几点。

(1)产品本身有没有任何隐性的成本,即费用。这点包括三个小点:

  • 第一产品有没有服务费;
  • 第二与该产品配套使用时,是否产生一些硬件成本。现在大多产品都是SAAS,大家会觉得买完就结束了。其实不是,例如二次应用开发这类隐形问题需要考虑到;
  • 第三,企业合作可能产生一定的费用,这里指的是什么?举个例子,比如像GA的部署,你采购完这款产品,相应可能还需服务商帮助撰写代码、DMP厂商、负责广告分析的厂商等。这几家不同的合作伙伴如何做资源统筹,并且其他的服务商可能会产生相应费用。

(2)当一个新的数据产品在企业初期使用阶段的时候,乙方有责任提醒,并沟通清楚:企业是否预留了调试、测试的时间。

(3)数据产品的长期应用问题。对甲方来说,刚开始往往都是试一试的态度。那乙方帮助客户做规划时,必然要考虑甲方如果长期使用的话,涉及到的一些隐形考虑。比如产品本身是否能拓展,是否可以二次开发等。

爬坑指南三:

  • 甲方——选择数据产品,适合是最重要的
  • 乙方——明确初衷是后续工作的基础

踩坑系列之四:两个数据源出现差异,如何面对并解释?

避坑观点总结:

甲方视角——宋天龙老师

甲方在处理这个问题上,思维里先建立一个观点——这种不确定性的事情发生很正常。心态摆正很重要,不能因为有差异或别人谈论认为数据不对,就产生崩溃的心理。

其次摆正立场。我们应该认识到,很多时候都是自己觉得数据客观公正。实际上数据源的部门可以有很多,比如营销、会员、销售等,每个部门的数据立场都不同。

但从数据的角度出发,建议各位尽量不要站队。设想一种情况:你站了一次队,并且错了,在这种情况发生后,你再对数据某种现象做出解释,别人是否还相信?

这引出下一个关键点,信任关系的问题。导致数据源出现差异性的因素有很多,各方有各自的解释。这种情况,你作为“拍板者”,较好的做法就是先建立信任关系,做到这点在甲方一层层的关系里很重要。

最后,学会用事实说话,这也是数据从业者的基本观念。作为数据部门,比较忌讳出现“我觉得怎么怎么样”此类话语。使用此类较为主观的话语,很容易遭到对方的拒绝。

乙方视角——张默宇老师

对于这个问题,乙方要做三件事:

首先明确解决什么问题,把范围缩小。

其次,从原理上区分数据源差异存在的原因。明确到底哪几个数据源需要对比,它们的工作原理到底是什么?为什么造成了差异?对于这点,建议尽量选择同一款工具,因为这样历史前后数据波动相对准确。

最后,从历史数据可用性、可对比性、行业标准、企业内接受程度等方面,评估选择该以哪一个数据源作为从头到尾核心的主数据源,以此来做后续分析。这种做法可以帮助我们省去很多时间、精力。

避坑指南四:

  • 甲方——摆正立场、摆平心态、建立信任关系、用事实说话
  • 乙方——重视沟通

踩坑系列之五:当数据结论与经验产生冲突,如何化解?

甲方视角——宋天龙老师

在这个问题上,甲方作为直接结果承担方,压力比较大。

如何化解?

做到3点:脸皮厚、嘴要甜、腿要勤。

作为数据方,首先要记得一点——姿态放低,根据沟通对象来调整策略。

举个简单的例子,沟通对象是工作8年、10年的人,还是刚毕业1、2年的人,难易程度肯定不同。相对来说,前者更容易怀疑你。所以面对前者的时候,要提前给对方做好心理铺垫。

其次,不要轻易下结论判断谁对谁错。这点对于工作经验丰富的分析师很重要,因为相对资历较浅的分析师,他们更容易凭职业惯性去肯定自己。

此外,如果沟通过程中,可以让业务方感受到你站在他的立场上为他考虑,而不是挑战他,那后续的工作会容易很多。假如双方难以说服彼此,建议做个最低成本的小测试,你需要全程跟踪、总结反馈,最终用结果说服对方。

乙方视角——张默宇老师

乙方对于这个问题的考虑方向,通常会以冲突发生之前就化解掉的角度出发。所以合作初期,双方在以下两件事情上达成共识很重要:一是数据结论和经验有冲突是好事情。二是让客户了解完整的数据服务流程包括:确认需求-数据采集-分析-发现问题-做假设做测试-校验-实施-继续监测。

如果冲突无可避免的发生了,首先进行自查。了解清楚在数据采集,包括数据结论建立的流程过程中是否真的存在误差,或者是否有系统性误差。

经过排查,可能会产生新假设,最好的解决方式就是去测试。这方面,线上数据具备成本极低的优势。

做完上述事情后,基于测试实际产生的数据,找到冲突是否正常,还是的确存在问题,值得形成经验以便后期借鉴。最终得到一个基于事实的答案。

避坑指南五:

  • 甲方——脸皮厚、嘴要甜、腿要勤
  • 乙方——秉承专业为本(共识、自查、测试、事实)

结语

数据化、数据化管理、数据化运营……已经成为现在老生常谈的话题。但变革往往伴随着风险、成本。不管甲方,还是乙方,都应该在尝试新的数据决策方法时,勇于拥抱不确定性,继而一步步获得数据所带来的商业价值。

发表评论

邮箱地址不会被公开。 必填项已用*标注