数据分析的方法、误区与数据说谎的手法
很多人说“数据会说话”,也有人说“数据会说谎”。其实,数据究竟会不会说话,说什么话,是真话还是假话,取决于数据的选择和分析的方式。
首先,我们要明白一个核心观点:运营数据分析的关键不在于数据,而在于分析。或者说,所有数据分析的关键都在于分析,而不在于数据本身。然后,我们要明确一个前提:数据分析的能力是渐进的,对数据的敏感度是需要培养的。最后,我们要懂得一个事实:数据表达出的信息与多种因素相关,运营人员尝试学习运营数据分析之前,要尽量抛开预设立场,并且明白不同类别的数据在不同的阶段其重要性也是不同的。
先问一个问题:所有网站的PV、UV、转化率都是核心指标么?答案当然是否定的。因为对于不同的网站(产品),在不同的时间阶段的核心指标是不同的。
网站(产品)建立的初期,流量指标非常关键,但是流量本身并不仅仅是一项指标,我们先看一下“流量”到底是什么。
流量包含了好几个指标,最关键的有以下一些:
UV(Unique Visitors):独立访客数
现在谷歌已经将这个指标替换为User,但基本概念并无变化。
独立访客数和独立IP是两个概念。独立IP要求访问者的IP地址各不相同,而独立访客数则未必。比如,在同一台电脑上,你注册了一个新用户,你哥哥注册了另一个新用户。此时,网站的后台会记录1个独立IP,但同时会记录2个UV。而如果在同一台电脑上,你和你哥哥都没有注册,只是浏览,那么后台会记录1个独立IP及1个UV。当然,在同一天内,不管一个独立IP下的独立访客访问多少次,后台都只记录1次。
PV(Page Views):页面访问量
每一个用户,每打开一个页面,就是一个PV。
一个网站,从首页到注册成功一共有5个页面,分别是:首页、填写用户名与密码、填写基础资料、填写高级资料、注册成功。每一个用户从首页点击注册并成功完成注册流程,后台会逐一统计,网站因此获得了5个PV。
RV(Repeat Visitors):重复访客
比如,昨天小明浏览了我的微信公众号,今天他又来了。小明就是一个RV。
TP(Time On Page):页面停留时间
比如,王大壮最喜欢看新闻,所以他每天看XO站的新闻频道10分钟;李小勇最喜欢看美女,所以他每天看XO站的美女频道30分钟。这就是TP。
Traffic Sources:流量来源渠道
比如,百度每天为你的网站贡献了100个UV;用户直接输入网址为你的网站贡献了10 000个UV;微信每天为你的网站带来1 000个UV。这些都是流量来源渠道。
所谓流量指标,并不单一地指UV、PV这些基础数据,也不仅仅是用户停留时间、重复访客这种细节数据,它同时还包括了渠道来源数据。
到了持续运营阶段,单一流量指标的意义已经不大,更重要的是用户的留存、活跃指标,甚至是付费用户的规模。在这个阶段,跟踪所有流量来源的渠道质量依然很重要,需要强化的是用户行为的分析,要拆分出各种维度、各种路径的留存、活跃、转化的情况,以及分析用户的兴趣点,建立用户的成长模型等等。
到了成熟期,运营人员需要关注用户流失的速度、分析流失的原因,对依然留存与活跃的用户给予重点的关注。数据分析在成熟期的意义是延续网站(产品)的生命周期,持续为存量用户提供优质服务。
到了衰退期,运营人员要做好数据的保存工作,如果网站(产品)要结束运营,应提前做好各种准备和通知。
我并不打算就数据分析的方法展开讨论,因为这个话题覆盖范围太大,所以我们着重分析一些关于数据使用、数据分析的误区和数据说谎的手法。
数据使用的方法
· 掌握历史数据。
对于运营人员来说,熟悉、掌握网站(产品)的历史数据非常关键。数据的维度越全面,运营人员对网站(产品)的生命周期,乃至用户的生命周期的把握就会越清晰。
· 从历史数据中归纳规律。
历史数据不是拿来看的,而是用来分析的。分析其中的规律,在什么节点数据上升,什么节点数据下降,找出原因,形成经验,对运营人员的工作来说至关重要。
· 通过规律反向进行数据预测。
运营人员掌握了规律,就具备了做数据预测的基础。过往3年,国庆节期间,网站的流量都会有明显提升,那么运营人员要不要提前为每年国庆节做一些规划呢?
· 学会对数据进行拆解。
数据量越大、维度越多,数据越需要拆解,可以分为按照时间的拆解和按照相关性的拆解。运营人员懂得拆解数据,意味着有能力把控运营的节奏。这是需要每个从事运营工作的人注意的地方。
运营数据分析的误区
· 不要用单一类型的数据去评价全局。
我们举个例子,见图6–2。
图6–2 近三个月支付宝网站日平均访问人数Alexa排名走势资料来源:Alexa网站
这是Alexa(一家专门发布网站世界排名的网站)统计的支付宝2014年4月~6月日平均访问人数的走势,我们可以通过这个数据认为支付宝的活跃用户在减少么?答案是不能。因为Alexa只统计Web端,支付宝移动端的活跃用户是否在增加呢?我们并不能从这个数据中得到答案。
· 不要夸大偶然事件,认为带来必然结果。
运营人员经常会发现一个活动上线之后,运营数据有很大的提升,但是,这有可能是一个偶然事件,如果你认为这样的活动形式必然对数据有所帮助,那么你需要更多的数据来佐证它,并且适时将这种活动转化为机制,如果它真的有效。
如果你不能证明两者之间的必然性,那么就有理由怀疑,你的运营效果是其他渠道导致的。
· 避免用结论推导原因。
运营人员很容易犯的数据分析的错误是,发现数据增长了,然后寻找各种对数据增长可能有帮助的事件,并且将数据增长的原因归功于这些事件。
运营人员发现数据增长,或者下降,希望找出原因,最好的方式是再现。
· 避免唯数据论。
数据既可以说明问题,也可能遮蔽视线。数据并不能解决所有问题,它给你的是一个参考,而不是一个结论。
运营数据说谎的手法
想要运营数据说谎,其实很简单,在此简单地举出几种。
· 拉伸图表。
图6–3 当日活跃用户数(人)图6–4 当日活跃用户数(人)上面两张图,其实源数据是完全一样的,但是相同的数据却带来了不同的感受。这就是拉伸图表所带来的结果。
· 修改坐标轴数据。
图6–5 当日活跃用户数(人)图6–6 当日活跃用户数(人)上面两幅图表,其实原始数据也是完全一样的,但是图6–6传递的用户波动的幅度比图6–5要小得多,这得益于图表制作者使用了“对数刻度”,从而让数据的波动没有体现得那么强烈。
· 故意选择有利的样本。
这种情况很常见。在运营过程中,运营人员会比其他人更了解自己的用户,那么就会出现下面这种情况:
一个电商平台要做流失用户挽回活动,运营人员要针对流失用户进行选型。这次选型有两个选择:一是“半年内未购物”的用户,二是“半年内未购物但有登录”的用户。那么,针对哪个样本选型用户的流失挽回活动效果会更好?
毫无疑问,答案是后者,因为第一个选型样本里包含了“有登录”和“无登录”两种类型。
很显然,如果我们单单考虑挽回流失用户的难度,对半年都没有登录的用户进行挽回,比对半年内有过登录但是没有购物的用户要难得多。
· 样本规模差异。
在产品的运营上,我们经常需要做一些A/B测试来验证某个功能或者设计方案哪个更好,这个时候,最容易犯的错误,也是最容易带来数据说谎结果的情况,是样本规模有差异。比如,A类选型选择了100个用户,而B类选择了1 000个用户,不管我们最终选择绝对值,还是比例,其结果都会存在巨大的误差。
这些数据分析的误区以及数据说谎的手段,希望引起大家警惕,不要为了指标而做指标,也不要为了汇报好看而去对数据做手脚。这样的做法会逐渐积累风险,最后一发而不可收拾。
活动数据分析样例
图6–7是几个活动参与用户数的数据样例,让我们试着分析一下发生了什么。
活动1是一个参与用户数缓慢上升,到达峰值后回落的活动。
活动2是一个参与用户数有明显波动,经历“高开——稳定——冲新高——回落”的活动。
活动3是一个参与用户数高开低走的活动。
活动4是一个参与用户数异常稳定的活动,高峰和低谷基本处于同一水平。
通过第1个活动的数据,我们大概可以得出以下结论:
· 该活动提前预热不够;
· 该活动随着时间推移,效果有明显提升;
· 该活动开始后没有进行过任何调整(包括宣传与奖励)。
通过第2个活动的数据,我们大概可以得出以下结论:
· 该活动的提前预热做得很好;
· 该活动开始后进行过调整(宣传或者奖励);
· 该活动的奖品发放控制可能有问题,后期力量不足。
通过第3个活动的数据,我们大概可以得出以下结论:
· 该活动提前预热做得很好;
· 该活动没有进行过任何调整(包括宣传与奖励)。
通过第4个活动的数据,我们大概可以得出以下结论:
· 该活动宣传不足或宣传渠道有问题;
· 该活动的设计本身可能有问题。
这4个活动仅仅是一个样例,但我们可以从中发现一些问题:首先,一个活动的数据并不仅仅是数据层面的波动;其次,数据背后有很多因素互相交织,大量的因果关系导致了事件的发生,数据的走势也由此而来。
因此,我们接下来要说的就是跳出数据看数据。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论