当前位置：文江博客话题详情

计算形容词频率的技术

发布于 2024-12-27 02:26:49 字数 1436 浏览 2 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一杆小烟枪 2025-01-03 02:26:49

如果你想要的只是形容词频率，那么问题相对简单，而不是一些残酷的、不太好的机器学习解决方案。

做什么？

在您的文本上添加 POS 标签。这会使用词性标签来注释您的文本，因此您的准确率将达到 95% 或更高。您可以使用 Stanford Parser online 标记您的文本，以感受它。解析器实际上还为您提供语法结构，但您只关心标记。

您还想确保句子被正确分解。为此，您需要一个断句器。它包含在斯坦福解析器等软件中。

然后，只需分解句子，给它们加上标签，然后用 ADJ 标签或他们使用的任何标签来计算所有内容。如果标签没有意义，请查找 Penn Treebank 标签集（Treebank 用于训练 NLP 工具，Penn Treebank 标签是常见的）。

怎么做？

Java 或 Python 是 NLP 工具的语言。 Python，使用 NLTK。它很简单、有据可查且易于理解。

对于Java，有GATE、LingPipe 和Stanford Parser 等。使用斯坦福解析器真是太痛苦了，幸运的是我已经受过苦了，所以如果你选择走那条路，你就不必这样做。请参阅我的 Google 页面，获取斯坦福大学的一些代码（位于页面底部）示例解析器。

Das all？

不，您可能还想词干形容词 - 这就是您获得单词根形式的地方：

cars ->; car

我实际上无法想到需要使用形容词的情况，但它可能会发生。当您查看输出时，您会很明显是否需要这样做。词性标注器/解析器/等将为您提供词干词（也称为引理）。

更多 NLP 解释
请参阅此问题。

在此处输入图像描述

回复收藏 0 原文

鸠魁 2025-01-03 02:26:49

这取决于您的数据来源。如果句子来自某种生成器，您可能可以自动拆分它们。否则你将需要 NLP，是的。

正确解析自然语言几乎是一个悬而未决的问题。它“很大程度上”适用于英语，特别是因为英语句子往往遵循 SVO 顺序。例如，德语在这里就非常令人讨厌，因为不同的词序传达不同的重点（因此可以传达不同的含义，特别是在使用讽刺时）。此外，德语更倾向于使用从句。

NLP 显然是一条出路。至少需要一些基本的解析器。这实际上也取决于您的任务：您是否需要确保每一项都是正确的，或者概率方法是否足够好？ “困难”的案例可以被丢弃或送人审查吗？ ETC。

回复收藏 0 原文

~没有更多了~

关于作者

星星的軌跡

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

计算形容词频率的技术

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

计算形容词频率的技术

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。