按心情存储句子

发布于 2024-11-27 01:56:31 字数 93 浏览 7 评论 0原文

让我们从一个简单的问题开始。假设我有一个 350 个字符的句子，并且希望将该句子放入“好心情”桶或“坏心情”桶中。

设计一个算法来存储句子的最佳方法是什么？

需要登录才能够评论，你可以免费注册一个本站的账号。

溇涏 2024-12-04 01:56:31

按语气对一堆句子进行手工分类。然后将它们输入朴素贝叶斯分类器。使用类似 SpamBayes 作为起点。

骄傲 2024-12-04 01:56:31

一个简单/天真的建议是首先将每个句子分成单独的单词，或者使用正则表达式并从“肯定”列表中扫描特定单词（例如“喜欢”、“快乐”、“可以”、“做”） ”等）和“负面”列表（“不喜欢”、“悲伤”、“不能”、“不”），找出每个句子中哪个更普遍，并相应地对其进行分类。

根据您的要求和数据集，这可能就足够了，或者您可能想研究更高级的技术，例如贝叶斯过滤。

一生独一 2024-12-04 01:56:31

根据句子的领域和所需的准确性，这可能是一个极其困难的问题。围绕情感分析的学术论文很多；一个好的开始可能是这里 - 一篇简短而经典的论文。

我建议采取的步骤将逐渐产生越来越好的分类器：

对一些文档进行手动分类，并使用它们来训练现成的算法。我建议使用SVM（例如使用WEKA中的LibSVM，或SVMLight），但如上所述，朴素贝叶斯或决策树也可能有效。
对更多文档进行手动分类，并从基于一元模型的模型转变为更复杂的模型，例如基于二元模型或词性模型。这可以通过 TagHelper 工具轻松完成，该工具将获取您的文本并使用这些技术将它们转换为 WEKA 就绪文件。这将为每个术语的情绪添加一些上下文（例如“不”和“坏”与“不错”）。
最后，您可以添加自定义规则和字典，这将为您的算法添加特定于领域的知识。它们可能表示为同一分类引擎的附加功能，或附加的分类步骤。