网络分析平台(例如 GA)如何计算唯一访客?
统计不同的访客并不是一件容易的事。 例如,在网络分析中,访问者可以在周一和周四访问,但在计算该周的唯一访问者时,我希望只对该访问者进行一次计数。
一个月内 1000 万次访问的 count (distinct userid)
无法运行太快,因为无法应用聚合(因为 countdistinct 不是“可添加”度量)。
我的问题是:Google Analytics 和其他网络分析平台如何如此快速地返回唯一访问者? 我假设使用统计估计。 哪一种? 如何?
Counting distinct visitors is not an easy task. In web analytics for example, a visitor can visit on Monday and Thursday, but when counting unique visitors over that week, I'd expect to count that visitor only once.
count (distinct userid)
for 10M visits over a month can't run too fast as aggregations can't be applied (because count distinct is not an "addable" measure).
My question is: How do Google Analytics and other web analytics platforms return unique visitors so fast? I assume statistical estimations are used. What kind? How?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
他们设置了一个具有合理过期时间的 cookie。 如果你已经有了 cookie,那么你就回来了。
They set a cookie with a reasonable expiration. If you have the cookie already, you've come back.
请参阅这篇文章,了解概率方法的概述http: //highlyscalable.wordpress.com/2012/05/01/probabilistic-structs-web-analytics-data-mining/ 可用于唯一计数
See this post for overview of probabilistic approaches http://highlyscalable.wordpress.com/2012/05/01/probabilistic-structures-web-analytics-data-mining/ that can be used for uniques counting