如何在分类中包含单词作为数字特征

发布于 2024-10-03 16:56:39 字数 135 浏览 9 评论 0原文

在任何机器学习算法中使用单词本身作为特征的最佳方法是什么？

问题是我必须从特定段落中提取与单词相关的特征。我应该使用字典中的索引作为数字特征吗？如果是这样，我将如何标准化这些？

一般来说，单词本身如何用作 NLP 中的特征？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心是晴朗的。 2024-10-10 16:56:39

有几种传统技术可以将单词映射到特征（二维数据矩阵中的列，其中行是单独的数据向量），以输入到机器学习模型。分类：

a 布尔值< /em> 字段，对给定文档中该单词的存在或不存在进行编码；
a 的频率直方图
预先确定的一组单词，通常是包含训练数据的所有文档中最常出现的 X 个单词（有关此内容的更多信息，请参阅
本答案的最后一段）；
两个或多个的并置
单词（例如“替代”和
“生活方式”连续顺序有
也不相关的含义
组成词）；这种并置可以在数据模型本身中捕获，例如，表示文档中是否存在两个直接相邻的特定单词的布尔特征，或者可以在机器学习技术中利用这种关系，作为一种简单的方法在这种情况下，贝叶斯分类器会强调文本；
单词作为原始数据提取潜在特征，例如LSA 或潜在语义分析（有时也称为潜在语义索引的 LSI）。 LSA 是一种基于矩阵分解的技术，它从文本中导出从文本本身的单词中不明显的潜在变量。

机器学习中的常见参考数据集由 50 个左右的最常见单词（也称为“停用词”）组成（例如，a、an、 >of、and、the、there、if），适用于伦敦莎士比亚的已出版作品、奥斯汀和弥尔顿。具有单个隐藏层的基本多层感知器可以以 100% 的准确度分离该数据集。该数据集及其变体广泛存在于机器学习数据存储库和介绍分类的学术论文中结果同样很常见。