文江博客开发文档 Python 数据分析与数据化运营数据分析与决策技术丛书文章详情

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

4.8 其他数据分析和挖掘的忠告

发布于 2024-01-27 22:54:28 字数 5376 浏览 0 评论 0 收藏 0

4.8.1　不要忘记数据质量的验证

数据质量是所有数据工作中最基础但也是最容易被忽视的一个环节，以下是几个简单的数据质量较差的场景：

三个数据系统中同样定义的“销售额”指标数据不一致。

数据库中“邮箱”字段80%为空。

数据库中“性别”字段中某些值为10。

数据库中“产品名称”字段出现乱码。

以上问题反映的是数据质量差的现象，导致这些问题的既有公司内部原因又有外部原因。内部原因包括数据采集方式错误、数据验证机制不全面、数据同步不及时、ETL过程错误、数据提取错误等。外部原因包括用户填写信息不规范、用户数据采集环境客观差异等。

要有效应对数据质量的问题，必须在工作过程中进行数据质量验证。什么是数据质量验证？

理解数据来源、数据统计和收集逻辑，数据入库处理逻辑；

理解数据在数据仓库中存放细节，包括字段类型、小数点位数、取值范围，规则约束等；

明确数据的取数逻辑，尤其是过程中是否对数据有转换或重新定义；

第一时间对数据做数据审查，包括数据有效性验证、取值范围、空值和异常值验证，是否与原始数据原则一致等。

这些工作完成之后才是数据分析。但可惜的是大多数数据分析师都不关注数据质量问题，甚至对数据的理解仅限于看到数据的字面意义。

4.8.2　不要忽视数据的落地性

无论数据分析的服务对象是具有决策权的领导层还是执行权的业务层，数据的价值都只存在于辅助决策或者数据驱动中。但部分数据分析师的数据报告却让业务方觉得没有价值，表现为：

分析过程明显不符合业务操作实际；

结论明显是错的；

建议方向性很对，但都是人人都知道的大道理，具体执行缺乏落地点；

建议方向性很明确，也有具体执行建议，但是业务不能执行。

在以上问题中，前两条问题的原因是数据分析的基本数据能力和业务基本常识不足，这是一定需要避免的问题；而后两条问题的原因更多的在于信息不对称。从数据分析师的主观问题分析，根源可能有以下几方面：

数据分析师不懂业务操作流程，凭自己的理解去猜测业务流程；

数据分析师不了解目前业务的困难点和紧迫点，想要驱动的是业务的“次要”关注点；

数据分析师不了解业务的实际能力与权限，尤其是公司大环境下的实施制约因素。

4.8.3　不要把数据陈列当作数据结论

把数据陈列当作数据结论是指数据报告中的结论全部都是由数字组成的简单陈述，通俗点讲就是“读数”。这种问题常见于日常报告，如日报、周报、月报等常规性报告，报告内容以阶段性总结和汇总为主，报告中没有深度分析的内容。

将报告中的数据简单陈列出来的情况通常称为数据事实，数据事实与数据结论的区别在于：数据事实是将数据陈列，不涉及好、坏、优、劣的定性；而数据结论需要将数据事实结合业务目标和实际情况定性为好、坏、优、劣等。数据事实与数据结论的联系在于：数据事实和数据结论是日常总结性报告中不可缺少的两个部分，前者以数据的形式直接反映结果，后者从数据分析的角度定性该结果并阐述了该结果的影响。

举例：表4-7是一份公司日报内容的一部分。

表4-7　某日报数据

在该报告中的数据结论定义可能有如下两种。

第一种　数据事实

昨日（2014-04-22）公司订单量8745，环比增长33%；商品销售量33101，环比增长54%；重复购买率62%，环比提高42%；新客户比例46%，环比提高18%；人均商品数量3.8，环比提高16%。

大多数的日常报告的结论可能就是类似于以上的数字陈述，报告中不存在任何结论。这种工作通常不能被视为一份报告，而是一个电子表格或数据，可以通过系统报表自动实现。

第二种　数据结论

那真正的数据报告结论是什么？以表4-7的数据为例，结论可能是：

昨日公司整体销售状况环比前日大幅度提升。——这是一个总的结论。

订单量8745，环比增长33%；商品销售量33101，环比增长54%。——数据陈述。

公司订单量和商品销售量增长比例较大且超出正常波动范围，需要相关部门A、部门B（具体负责的部门）关注。——数据结论定义为增长，增长状态为超过正常范围。

重复购买率62%，环比提高42%。——数据陈述。

意味着用户重复购买的次数大大提高，且提高的比例超过了正常波动的上限范围，这是一个积极信号。——数据结论定义为增长，增长状态为超过正常范围。

人均商品数量3.8，环比提高16%。——数据陈述。

属于正常波动范围。——定性结论。

完整的日报结论部分为：

昨日公司整体销售状况环比前日大幅度提升。公司订单量和商品销售量增长比例较大且超出正常波动范围，需要相关部门A、部门B（具体负责的部门）关注。网站访问量和页面浏览量增长比例较大且超出正常波动范围，需要相关部门关注。重复购买率62%，环比提高42%，意味着用户重复购买的次数大大提高，且提高的比例超过了正常波动的上限范围，这是一个积极信号。人均商品数量3.8，环比提高16%，属于正常波动范围。

以上结论只是一个示例，在实际业务中会根据汇报对象的层次、理解水平、对数据的认识程度以及听汇报的习惯重新组织语言和格式等；另外，由于没有对其他数据进行相关性分析，无法提炼出某些指标的直接对接和负责部门，实际应用中需要根据当前部门分工以及工作重点，将各个指标的负责部门联系起来，以便产生数据驱动效应。

4.8.4　数据结论不要产生于单一指标

数据结论产生于单一指标指当前结论的来源是某个指标，而非全面的数据指标。这是普遍存在于分析报告中的错误，原因是单一指标通常无法全面衡量某一业务的整体效果。比如，昨日全站订单量提升20%并不意味着全站销售效果提升，还要根据客单价、实际妥投率等做综合评估。

举例：在做网站数据分析时，经常会使用三个流量质量评估指标——跳出率、新访问占比和访问深度，当这三个指标的数值都环比上升时，反映的趋势并不完全一致。

跳出率的提升是业务不希望看到的结果，该结果意味着流量质量不高（暂且不论是站外流量质量问题还是站内落地页设计问题）。

新访问占比虽然有提升，但无法判断提升对业务是好还是坏，原因是企业不同阶段及业务不同目标决定了该目标的评估取向。如果业务目标是扩大品牌认知，那么需要提高对新用户的覆盖度，此时数据目标是提高新访问占比；如果业务目标是增加老用户回访体验活动，那么需要提高老用户访问占比。

访问深度的提升是一个积极的效果，意味着用户浏览的页面数量增加，但是如果访问深度太深也可能是一个不好的信号，可能说明用户迷失在页面上无法快速找到意向内容。

假设只有三个网站流量质量评估指标（实际情况中不只三个），其中任何一个都无法全面说明网站质量情况。

4.8.5　数据分析不要预设价值立场

所谓预设价值立场指的是在做数据分析之前就已经先入为主的有了某种价值判断。

数据有没有立场？

数据的公正客观在大多数人看来是与生俱来的，因为数据的存在就是客观的。数据的存在的确是客观的，但数据的分析和应用的主体是“人”，不同人对同一数据的分析结果可能不同，这取决于数据从业者的立场。

这会影响什么？

我们对数据存在的初始期望是希望数据能客观地反馈业务结果，并服务于业务优化和改进。如果对数据的分析解读不客观、不公正，那么结果必然有失公允，基于数据的决策将面临风险。

为什么会这样？

数据从业者的立场决定了数据的立场，这种立场受两方面因素影响：

一是数据从业者在公司所处的角色：如果数据从业者在企业组织架构中位于采销中心之下，在对公司级数据进行整理并汇报采销相关数据时，出于自我中心或其他因素的保护意识，可能会出现不客观的结果，比如只报喜不报忧、甚至颠倒是非。

二是数据从业者基本的价值观：任何人都有基本的认知价值观，对数据从业者而言，如果在拿到一个案例之后，先有了结果偏向，那么整个分析和挖掘过程必然会只选择与其结果一致性的样本和方法进行验证，这可能直接导致客观数据结果扭曲。

举例：假如某次活动时网站的转化率是1.2%，要对此指标做数据分析。

数据分析的第一步是定性结果，1.2%的转化率是好还是坏？有比较才能区分好坏，如何选择比较方法？常用的比较分析方法有环比、占比、定基比、横向比、纵向比等，每一种对比方法又可以选择不同时间进行对比，如昨日、上周今日、上月今日等。不同比较方法、不同时间的对比结果可能存在差异甚至是截然相反。如何在符合统计学基本前提下做结果定性？

假设第一步定性工作完成，该活动转化率是好的结果。下一步需要分析为什么好？到底是谁的“功劳”？电商网站做大型促销活动时存在一个普遍规律：只要价格足够低，无论用户体验多差、网站UI多烂、送货速度多慢、客服态度多差，这些都不会太影响转化率。这意味着，无论企业营销、网站运营工作效果如何，只要能保证页面正常访问，所有节点的转化率结果都会特别好。此时，各个业务部门对转化率的影响各占多少权重？

假设数据分析师排除万难，通过复杂模型算法计算出各个业务节点的贡献，作为数据分析师，如何跟领导汇报并解读各个业务节点的真实贡献，是实话实说还是含糊其辞，甚至是颠倒是非？

客观、公正是数据从业者的职业要求和个人素质之一，任何基于数据的决策项目都要求从业者秉着客观、公正的态度去对待，否则数据工作不仅没有价值，反而会误导决策，这是非常危险的事情。

4.8.6　不要忽视数据与业务的需求冲突问题

在数据分析挖掘工作开始前，都需要有一段时间积累数据，目的是尽量获得能符合实际业务返回的完整数据集，基于这种数据所得出的结论才有可能是客观、公正的。数据需求的严谨性主要体现在数据采集阶段。数据采集阶段要求数据样本量必须具备在一定周期内相对稳定的特征，并且这种特征能在后期数据处理中排除异常值波动的影响，进而得到完整、真实反馈业务效果的数据。

数据采集通常会受两方面影响，一是数据采集单位效率，即每天能采集多少数据；二是周期，即使数据单位采集效果很高，也不能只使用很短的周期数据进行分析，因为当期的数据可能存在异常值，而且该异常值不通过数据对应分析是无法验证和剔除的。因此，数据采集阶段通常至少需要一周的数据采集数据，如果采集效率低，则需求时间更长。

但在业务方看来，如此“长”的时间通常是无法忍受的。业务方通常想要在较大业务动作后立即反馈结果进行优化矫正，但我们看到业务方的这种“短、快、全”的需求直接与数据需求的严谨性产生冲突。这种冲突的场景有：

某站内广告在首页焦点图的A位置只放3天，3天后马上下架换新素材。

某站内UED部门做产品体验提升，每周做一次产品方案优化。

这几种业务场景从客观上直接导致数据需求严谨性的缺失，因此会对数据质量和后期的分析挖掘产生一定影响。

数据严谨性并不意味着数据结果的产生一定需要很长时间，时间长短取决于业务需求下数据对时间和数据样本的要求。通常实时数据、即席报表都能以很快的速度反馈业务关键节点，以帮助业务做及时调整，比如某渠道推广效果、站内某活动实时效果等。但某些长期、对全局性有影响的关键业务节点需要更慎重的决策支持以避免数据决策失误，比如首页改版、购物车改进等。