返回介绍

3 典型数据分析

发布于 2024-10-03 10:40:20 字数 4630 浏览 0 评论 0 收藏 0

四大业务场景:

  • 用户画像:服务于产品研发设计人员;针对业务需求;精准营销。
  • 销售收入分析:
  • 物流分析
  • 财务分析

舆情分析

简介

在时下互联网信息的浪潮下,信息的传播速度远超我们的想象。微博里一条大 V 的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评 价,可能会产生数以万计的转发,关注,点赞。如果是一些非理性负面的评论会激发人们的负面感,甚至影响到消费者对企业品牌的认同,如果不能及时的采取正确 的应对措施,会造成难以估计的损失。所以我们需要一个高效的全网舆情分析系统,帮助我们实时的观测舆情。

舆情分析包括但不限于

  • 舆情的影响力诊断,从传播量级和扩散趋势来做预测,确定是否最终形成舆情。

  • 传播路径分析,分析舆情传播的关键路径。

  • 用户画像,对舆情的参与者提供共性特征勾勒,如性别,年龄,地域和感兴趣话题。

  • 情感分析,分析新闻或者评价是正面还是负面。情感分类后进行统计聚合。

  • 预警设置,我们支持舆情讨论量阈值设置,达到阈值后通知推送业务方,避免错过舆情的黄金参与时间。

    image-20191204223230293

图 5 舆情分析数据流

image-20191204223244271

图 6 舆情系统业务流程

  • 原始网页存储库,这个库需要能支持海量数据,低成本,低延时写入。网页数据写入后,要做实时结构化提取,提取出来的数据再进行降噪,分词,图片 ocr 处理等。对分词文本,图片进行情感识别产生舆情数据结果集。传统的离线全量计算很难满足舆情系统的时效性需求。
  • 计算引擎在做数据处理时,可能还需要从存储库中获取一些元数据,例如用户信息,情感词元数据信息等。
  • 除了实时的计算链路,对存量数据定期要做一些聚类,优化我们的情感词识别库,或者上游根据业务需要触发情感处理规则更新,根据新的情感打标库对存量数据做一次舆情计算。

舆情的结果数据集有不同类的使用需求。对于重大舆情,需要做实时的预警。完整的舆情结果数据展示层需要支持全文检索,灵活的属性字段组合查询。业务上可能根据属性字段中的置信度,舆情时间,或者关键词组合进行分析。

架构

image-20191204223313459

图 7 开源舆情架构图

  1. 系统的最上游是分布式的爬虫引擎,根据抓取任务抓取订阅的网页原文内容。爬虫会把抓取到的网页内容实时写入 Kafka 队列,进入 Kafka 队列的数 据根据前面描述的计算需求,会实时流入流计算引擎(例如 Spark 或者 Flink),也会持久化存储在 Hbase,进行全量数据的存储。全量网页的存储可 以满足网页爬取去重,批量离线计算的需求。

  2. 流计算会对原始网页进行结构化提取,将非结构化网页内容转化为结构数据并进行分词,例如提取出网页的标题,作者,摘要等,对正文和摘要内容进行分词。提取和分词结果会写回 Hbase。结构化提取和分词后,流计算引擎会结合情感词库进行网页情感分析,判断是否有舆情产生。

  3. 流计算引擎分析的舆情结果存储 Mysql 或者 Hbase 数据库中,为了方便结果集的搜索查看,需要把数据同步到一个搜索引擎例如 Elasticsearch,方便进行属性字段的组合查询。如果是重大的舆情时间,需要写入 Kafka 队列触发舆情报警。

  4. 全量的结构化数据会定期通过 Spark 系统进行离线计算,更新情感词库或者接受新的计算策略重新计算历史数据修正实时计算的结果。

    image-20191204223349164

图 8 云上舆情大数据架构

数据冰山 - 知乎专栏

汽车之家

大数据画像:宝马车主究竟有多任性? - 数据冰山 - 知乎专栏 利用论坛发言的抓取以及 NLP,对各种车型的车主做画像。

天猫、京东、淘宝等电商网站

超越咨询顾问的算力,在用户理解和维护:大数据改变管理咨询(三) - 数据冰山 - 知乎专栏 ,抓取各大电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及用户的消费场景进行分析。

58 同城的房产、安居客、Q 房网、搜房等房产网站

下半年深圳房价将如何发展 - 数据冰山 - 知乎专栏 ,抓取房产买卖及租售信息,对热热闹闹的房价问题进行分析。

大众点评、美团网等餐饮及消费类网站

黄焖鸡米饭是怎么火起来的? - 何明科的回答 ,抓取各种店面的开业情况以及用户消费和评价,了解周边变化的口味,所谓是“舌尖上的爬虫”。

58 同城等分类信息网站

花 10 万买贡茶配方,贵不贵? - 何明科的回答 ,抓取招商加盟的数据,对定价进行分析,帮助网友解惑。

拉勾网、中华英才网等招聘网站
互联网行业哪个职位比较有前途? - 数据冰山 - 知乎专栏 ,抓取各类职位信息,分析最热门的职位以及薪水。

挂号网等医疗信息网站
如何评价挂号网? - 何明科的回答 ,抓取医生信息并于宏观情况进行交叉对比。

应用宝等 App 市场
你用 Python 做过什么有趣的数据挖掘/分析项目? - 何明科的回答 ,对各个 App 的发展情况进行跟踪及预测。(顺便吹一下牛,我们这个榜单很早就发现小红书 App 的快速增长趋势以及在年轻人中的极佳口碑)

携程、去哪儿及 12306 等交通出行类网站
你用 Python 做过什么有趣的数据挖掘/分析项目? - 何明科的回答 ,对航班及高铁等信息进行抓取,能从一个侧面反映经济是否正在走入下行通道。

雪球等财经类网站
抓取雪球 KOL 或者高回报用户的行为,找出推荐股票

58 同城二手车、易车等汽车类网站
一年当中买车的最佳时间为何时? - 何明科的回答什么品牌或者型号的二手车残值高?更保值?反之,什么类型的贬值较快? - 二手车 ,找出最佳的买车时间以及最保值的汽车。

神州租车、一嗨租车等租车类网站
抓取它们列举出来的租车信息,长期跟踪租车价格及数量等信息

各类信托网站
通过抓取信托的数据,了解信托项目的类型及规模

本章参考

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文