文本分类

发布于 2024-12-15 08:27:18 字数 738 浏览 3 评论 0原文

我正在研究文本分类问题，我正在尝试将一组单词分类为类别，是的，有很多可用于分类的库，所以如果您建议使用它们，请不要回答。

让我解释一下我想要实现的内容。（以为例）

单词列表：

java
编程
语言
c-sharp

类别列表。

java
c-sharp

在这里我们将训练该集合，如下：

java 映射到类别 1. java
编程映射到类别 1.java
编程映射到类别 2.c-sharp
语言映射到类别 1.java
语言映射到类别 2.c -sharp
c-sharp 映射到类别 2.c-sharp

现在我们有一个短语“The best javaprogramming book” 从给定的短语中，以下单词与我们的“单词列表”相匹配。：

java
编程

“programming”有两个映射类别“java”和“java”。 “c-sharp”所以这是一个常用词。

“java”仅映射到类别“java”。

所以我们的短语匹配类别是“java”，

这就是我想到的，这个解决方案好吗，它可以实现吗，你的建议是什么，我错过了什么，缺陷等等。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鸠书 2024-12-22 08:27:18

当然这是可以实现的。如果您在正确的数据集（我猜是 Java 和 C# 编程书籍的标题）上训练朴素贝叶斯分类器或线性 SVM，它应该学会将术语“Java”与 Java、“C#”和“.NET”与 C# 相关联。，以及两者的“编程”。也就是说，如果数据集被均匀划分，朴素贝叶斯分类器可能会学习 Java 或 C# 等常用术语（如“编程”）的大致均匀概率。

回复收藏 0 原文