8.9 本章小结
内容小结:本章针对文本内容的监督式应用(重点是文本分类)比较少,原因是在此类的应用中最难的是词性标注的部分,即哪些词是积极的,哪些词是消极的,以及对于积极和消极的评分定义各自是怎样的。这些内容大多以“字典”的形式存在,在定义过程中会继承对语言相关知识的理解,而国内目前还没有一个非常准的词典开源出来(包括SentiWordNet、《知网》中文版、NTUSD等在内都不太准确),这直接影响到对标签的标注问题,从而影响到所有后续的处理。因此做一个案例不难,难的是在大规模商业应用时具备较高的准确率,而词典正是影响准确率本身的最大因素。
在自然语言方面,语言本身的相关资源的专业性已经具备稀缺性,因此拥有较高质量的语料库和高质量的词典会成为内容分析和建模的关键,在这方面,百度和腾讯其实更具优势,尤其是后者。
在图片和视频分类等领域,基本上识别和分类效果核心是图片资源的丰富程度以及是否具有满足海量计算的庞大计算资源(相对而言算法本身的重要性是其次),而在这方面具有优势资源的百度、谷歌等更具有潜力。
聚焦于内容本身,其类型包括语言、图片、视频、语音等类型,这些内容在其涉及的所有领域通用性极高;而在一些具有特定专业的领域,也可以通过增加专业知识(例如词典、内容材料等)的方法来提升其内容识别和应用效果。因此,有关内容的应用基本上是市场领头羊赢者通吃的局面。因此,当一些巨头把相关内容服务开放出来时,更多的我们会选择合作和应用,而非完全自研。
重点知识:本章所围绕的是内容分析和运营知识,其中内容数据化运营指标、内容数据化运营分析模型、内容数据化运营分析小技巧以及最后的两个案例是重点,尤其是其中:
使用BeautifulSoup做不同格式的XML文件内容解析。
使用正则表达做字符串分割以及匹配。
使用HashingVectorizer完成文本转稀疏矩阵。
使用MultinomialNB的增量学习机制来实现大数据量的训练、检验和预测。
外部参考:由于内容涉及的内涵和外延非常多,以下是本书有所涉及但并未深入的部分,读者可通过外部相关资源了解更多:
SEO是内容运营非常关键的一环,有关这个话题的内容非常庞大。由于目前国内的搜索引擎核心是百度,因此关于SEO的主要对象是围绕百度产生的,更多知识请参考http://baiduseoguide.com/。书籍可以参考《SEO实战密码:60天网站流量提高20倍(第3版)》。
百度站长平台不仅提供了有关SEO的优化工具和资源入口,更提供了很多在内容建设方面的有效建议及相关工具,具体参考http://zhanzhang.baidu.com/。
由于当前以自然语言为主的内容仍然占主要因素,对于这部分内容的深入分析和挖掘有两个专门的知识领域:文本挖掘和自然语言理解。有关这两方面的话题,还请读者自行查找相关资料。
很多行业巨头都提供了开放的内容识别和分析服务,例如百度。有关调用百度API做情感倾向分析以及更多自然语言理解的应用的更多信息,请查阅https://cloud.baidu.com/doc/NLP/NLP-Python-SDK.html#.E5.AE.89.E8.A3.85Python.20SDK。
Python及相关库在应对大规模数据处理时,往往会有不同的实现方法。除了在本书中我们提到的特征工程、sklearn中设置n_jobs参数、增量学习外,还包括64位Python版本、并行处理、多线程计算等,有关这些内容,需要读者书外了解更多。
在有关知识、关系等非结构化领域的主题挖掘中,还有一个专门的领域叫做“知识图谱”,通过知识图谱能够将具有不同深度和平行关系的主体对象及其关系通过“图模型”的形式表达出来,有关知识图谱的更多内容,请读者通过书外更多资源加以了解。
应用实践:
尝试调取一些开放的服务来满足企业内部的内容识别尝试与初步应用,例如文字识别、智能推荐、语音识别等。
尝试开发一些针对企业内部的特定应用,例如垃圾内容识别、内容协同过滤等,这些内容相对外部可参看资源较多且应用成熟。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论