将文档分类

发布于 2024-09-07 02:42:21 字数 657 浏览 17 评论 0原文

我在 Postgres 数据库中存储了大约 30 万个文档，这些文档都标有主题类别（总共大约有 150 个类别）。我还有另外 150k 文档还没有类别。我正在尝试找到以编程方式对它们进行分类的最佳方法。

我一直在探索 NLTK 及其朴素贝叶斯分类器。似乎是一个很好的起点（如果你能为这个任务建议一个更好的分类算法，我洗耳恭听）。

我的问题是，我没有足够的 RAM 来一次在所有 150 个类别/300k 文档上训练 NaiveBayesClassifier（在 5 个类别上训练使用 8GB）。此外，当我训练更多类别时，分类器的准确度似乎会下降（2 个类别的准确度为 90%，5 个类别的准确度为 81%，10 个类别的准确度为 61%）。

我是否应该一次训练 5 个类别的分类器，然后通过分类器运行所有 150k 文档以查看是否存在匹配项？看起来这会起作用，除了会出现很多误报，其中与任何类别都不真正匹配的文档仅仅因为它是可用的最佳匹配而被分类器硬塞进去......一种为分类器提供“以上都不是”选项的方法，以防文档不适合任何类别？

这是我的测试类 http://gist.github.com/451880

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

芯好空 2024-09-14 02:42:35

有没有办法让“没有
分类器的“上方”选项
如果该文档不适合
任何类别？

您只需每次训练“以上都不是”伪类别即可获得这种效果。如果您最多可以训练 5 个类别（尽管我不确定为什么它会消耗这么多 RAM），则从每个类别的实际 2K 文档中训练 4 个实际类别，以及一个“以上都不是”类别及其 2K 文档从所有其他 146 个类别中随机抽取（如果您想要“分层抽样”方法，则从每个类别中大约抽取 13-14 个类别，这可能更合理）。

仍然感觉有点混乱，你可能会更好地采用完全不同的方法 - 找到一个多维文档度量，将 300K 预先标记的文档定义为 150 个合理可分离的集群，然后分配每个其他集群- 将未标记的文档添加到由此确定的适当集群中。我不认为 NLTK 有任何直接可用的东西来支持这种事情，但是，嘿，NLTK 发展得如此之快，以至于我很可能错过了一些东西......;-)

回复收藏 0 原文

￡烟消云散 2024-09-14 02:42:34

您应该首先将文档转换为 TF-log(1 + IDF) 向量：术语频率为稀疏，因此您应该使用 python dict，以 term 作为键，将 count 作为值，然后除以总计数以获得全局频率。

另一个解决方案是使用 abs(hash(term)) 作为正整数键。然后你可以使用 scipy.sparse 向量，它比 python dict 更方便、更有效地执行线性代数运算。

还通过对属于同一类别的所有标记文档的频率进行平均来构建 150 个频率向量。然后，对于要标记的新文档，您可以计算文档向量与每个类别向量之间的余弦相似度并选择最相似的类别作为文档的标签。

如果这还不够好，那么您应该尝试使用 L1 惩罚来训练逻辑回归模型，如 scikit-learn 的这个示例（这是一个包装器对于 liblinear，如@ephes 所解释）。用于训练逻辑回归模型的向量应该是之前引入的 TD-log(1+IDF) 向量，以获得良好的性能（精度和召回率）。 scikit learn lib 提供了 sklearn.metrics 模块，其中包含用于计算给定模型和给定数据集的分数的例程。

对于较大的数据集：您应该尝试 vowpal wabbit，它可能是地球上进行大规模文档分类最快的兔子问题（但不容易使用 python 包装器 AFAIK）。

回复收藏 0 原文

忆梦 2024-09-14 02:42:34

您的文档有多大（字数）？ 150K 训练文档的内存消耗应该不是问题。

朴素贝叶斯是一个不错的选择，尤其是当您有许多类别且只有几个训练示例或非常嘈杂的训练数据时。但总的来说，线性支持向量机的性能确实要好得多。

您的问题是多类（文档仅属于一个类别）还是多标签（文档属于一个或多个类别）？

准确度并不是判断分类器性能的一个糟糕选择。您应该使用精度与召回率、精度召回盈亏平衡点 (prbp)、f1、auc，并且必须查看精度与召回率曲线，其中根据置信阈值绘制召回率 (x) 与精度 (y) 的关系（文档是否属于某个类别）。通常，您将为每个类别构建一个二元分类器（一个类别的正训练示例与不属于您当前类别的所有其他训练示例）。您必须为每个类别选择最佳置信度阈值。如果您想将每个类别的单个度量组合成全局绩效度量，则必须进行微观（将所有真阳性、假阳性、假阴性和真阴性相加并计算组合分数）或宏观（计算每个类别的分数和然后对所有类别的分数进行平均）平均。

我们拥有包含数千万个文档、数百万个训练示例和数千个类别（多标签）的语料库。由于我们面临严重的训练时间问题（每天新增、更新或删除的文档数量相当多），我们使用 lib线性。但对于较小的问题，使用 liblinear 周围的 python 包装器之一（liblinear2scipy 或 scikit-learn）应该可以正常工作。