返回介绍

第 22 章 自然语言处理

发布于 2024-02-10 15:26:30 字数 2488 浏览 0 评论 0 收藏 0

第 22 章 自然语言处理

目录

22.1. 全文索引(full-text index)
22.2. 人机对话
22.3. 情感分析
22.4. 常用的 Python 分词库
22.5. 结巴中文分词
22.5.1. 分词演示
22.5.2. 日志设置
22.5.3. 返回 generator
22.5.4. 返回 list
22.5.5. 精准模式与全模式比较
22.5.6. 精准模式与搜索引擎模式比较
22.5.7. 词性标注
22.5.8. 词典管理
22.5.9. 抽取文本标签
22.5.10. 返回词语在原文的起止位置
22.6. wordcloud
22.6.1. wordcloud_cli
22.6.2. WordCloud 对象配置参数
22.6.3. 与分词共用
22.6.4. 遮罩图

自然语言处理(Natural Language Processing)

中文分词(Chinese Word Segmentation),英文是由单词组成,并使用空格来分开每个单词,而中文以字为单位,由字组成词,字于词的含有可能完全不同,因此,中文分词NPL相比英文分词要复杂的多。

中文分词技术主要使用场景有哪些:

  • 搜索优化,关键词提取
  • 语义分析
  • 非结构化文本媒体内容,如社交信息
  • 文本聚类,根据内容生成自动分类
  • 文章自动标签
  • 情感分析
  • 词性提取

22.1. 全文索引(full-text index)

全文索引 (也称全文检索)是目前搜索引擎使用的一种关键技术。

全文索引是利用分词技术,首先将一段文本中的关键词提取出来,同时获得该词在文本中出现的位置。然后对提取的关键词做索引。

当用户查询关键词,并且命中的时候,返回查询结果。同时记录关键词的查询频率,再进行词频优化,以便下次命中率更高。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文