8.4 内容数据化运营分析模型
本节的数据化运营分析模型主要涉及情感分析模型、搜索优化模型、文章关键字模型、主题模型、垃圾信息检测模型。
8.4.1 情感分析模型
情感分析是对情感倾向的分析,用于分析特定对象对相关属性的观点、态度、情绪、立场以及其他主观感情的技术,分析结果通常属于正向、中性或负向的一种。
情感分析的应用场景:
竞争情报:获取用户观点中关于竞争对手的特定信息。
舆情监测:获得有关自身网站、内容、产品、服务、品牌、形象等相关信息的监控和预测,以获得有较强影响力、倾向性的言论和观点的现状及未来趋势。
客户倾向分析:客户对于企业的倾向是积极还是消极的分析,利于建立全面的客户与企业形象认知。
话题监督:监督特定话题下,所有用户的话题集中点、主要内容、话题演变等。
口碑分析:用户对于企业各方面的感知和认识,尤其对于具有良好传播效应的意见领袖的口碑把控。
情感分析常用方法:除了非负矩阵分解、基于遗传算法的情感分析之外,使用的最多的还是监督学习算法,例如朴素贝叶斯、K近邻和支持向量机等。使用分类方法下做情感分析的基本思路是:
步骤1 文本预处理,包括去除无效标签、编码转换、文档切分、基本纠错、去除空白、大小写统一、去标点符号、去停用词、保留特殊字符等。
步骤2 文本分词,在中文环境下需要特定的分词模型。
步骤3 文本向量化,将文本特征转化为向量空间模型来标示。
步骤4 特征提取,对于海量稀疏特征做特征提取,包括特征选择和数据绛维等方法。
步骤5 分类建模和效果评估,选择特定的分类模型,建立模型并做效果评估和结论分析。
有关文本预处理和分类算法的更多内容,请见3.12.4节和4.3节。
8.4.2 搜索优化模型
用户在某些文本之间可能存在频繁的关联查阅关系,而这些关键字之间会蕴藏用户的潜在意图。例如,当用户在搜索引擎搜索“热度分析”一词时,相关的搜索词可能包括:空间热度分析、关键词热度分析、音频热度分析、热词分析、关键词热度分析十法、关键词热度分析、网络游戏热度排行榜等。
搜索优化模型可以帮助用户更快找到有兴趣的潜在内容,可用于搜索过程中的联想功能、相关的结果提示和二次搜索建议。
常用的搜索优化模型的方法是关联模型,例如Apriori、FP-growth等,有关关联模型的更多内容,请见4.4节。
8.4.3 文章关键字模型
关键字提取是从文本中提取跟内容最相关的词语,关键字抽取的结果常用于文档检索、文章标签编辑等,也经常用在文本聚类、文本分类、关键字摘要等方面。
关键字模型能生成简短的关于文档内容的指示性信息,将文档的主要内容或核心关键字呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间并提高信息关键信息的展示能力。
文章关键字模型抽取应用场景:帖子、新闻、资讯、评论、问答等的标签、内容和meta信息的产生。
文章关键字模型抽取常用方法:通过词频统计、TF-IDF模型获得文本的主要关键字。
有关该模型的更多内容,请见4.9.3节。
8.4.4 主题模型
主题模型(Topic Model),是提炼出文字中隐含主题的一种建模方法。在统计学中,主题就是词汇表或特定词语的词语概率分布模型,它是文字(文章、话语、句子)所表达的中心思想或核心概念。例如,当提到IBM时,可能我们会想到ThinkPad;提到比尔盖茨,我们就会想到Windows。IBM和ThinkPad、比尔盖茨和Windows就是各自主题里面相关的概念。
如图8-3所示是有关数据工作的主题。
图8-3 数据工作主题
主题模型是一个能够挖掘语言背后隐含信息的利器,是语义挖掘、自然语言理解、文本解析和文本分析、信息检索的重要组成部分。
它可以衡量文档之间的语义相似性,是文本聚类、分类、情感分析、文档相似度等应用的重要组成部分。
它可以解决多义词的问题,实现准确的词性标注。
它可以排除文本中噪音,从中准确的提炼出主题关键字。
主题模型克服了传统信息检索中文档相似度计算方法的缺点,能够在海量数据中自动寻找出文字间的语义主题。主题模型可以应用到围绕主题产生的应用场景中,例如搜索引擎领域、情感分析、舆情监控、个性化推荐、社交分析等。主题模型的得到的结果,可以在去停用词之后,配合标签云等形式做进一步的形象展示。
常用的主题模型包括:
潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。
概率潜在语义分析(ProbabilisticLatent Semantic Analysis,pLSA)。
其他基于LDA的衍生模型,如Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等。
主题模型里面的潜在狄利克雷分配模型跟线性判别分析的英文缩写都是LDA,但二者毫无关联,仅仅是缩写相同而已。
8.4.5 垃圾信息检测模型
垃圾信息检测模型是一种分类应用,主要用于检测特定对象是否包含垃圾信息,是网站内容管理的重要方式和途径。
常见的垃圾信息检测应用包括:
从电子邮件中过滤垃圾邮件。
从站内信中过滤含有恶意信息的信息。
从评论或留言中过滤过激言论。
从用户发布的文章中识别负面题材。
垃圾信息检测模型可以将于分类模型来实现,常用方法:朴素贝叶斯、矩阵变换法、K近邻、支持向量机、神经网络等。有关分类算法的更多内容,请见4.3节。
除了基于有标签的训练集做监督式学习外,还可以使用非监督式的方法做垃圾信息监测,例如:
基于内容相似度,分析新评论与已有的垃圾信息的内容相似度,如果相似度高于一定阈值,则认定为垃圾内容。当然,这样做的前提是有一份相对完整的垃圾信息的集合,并且需要不断维护。
基于固定信息的过滤,例如固定IP、包含特定关键字、包含URL、来源于特定域等,这些就不属于算法类应用了。
除了针对文本垃圾信息检测外,还可包括更多类型的内容形式,例如视频、图片、语音等。
随着内容形式的多样化,针对其他类型的分类应用也非常常见,例如识别图片和视频内容中的“黄赌毒”信息、反动文字信息等并过滤。要完成这类的应用,难点还是在与海量训练数据本身,无论是视频还是图片,大多数企业本身通常是不具备海量资源的。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论