当前位置：文江博客话题详情

您使用哪些工具来分析文本？

发布于 2024-07-21 06:41:56 字数 702 浏览 10 评论 0原文

我需要一些灵感。对于一个业余爱好项目，我正在研究内容分析。我基本上是在尝试分析输入以将其与主题图相匹配。

例如：

“伊拉克之路”> 历史，中东
“Halloumni”> 食品，中东
“宝马”> 德国，汽车
“奥巴马”> 美国
“黑斑羚”> 美国，汽车
“柏林墙”> 历史，德国
“腊肠”> 食品，德国
“芝士汉堡”> 食品，美国
……

我读了很多有关分类学的文章，最后，无论我读到什么，都得出结论：所有人的标签都不同，因此该系统注定会失败。

我考虑过标记化输入和停用词列表，但它们当然需要大量的工作来提出和构建。在单词和主题之间建立相关链接似乎很费力，而且永无止境，因为无论您处理什么语言，它都非常丰富，而且大多数语言也严重依赖上下文。更不用说维护它了。

我想我需要想出一些聪明的东西，并用我希望它能够猜测的主题来训练它。有点像 Eliza 机器人。

不管怎样，我不相信有什么东西可以开箱即用，但是有人有任何线索或技术示例可以用来分析输入以提取含义吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

听你说爱我 2024-07-28 06:41:56

嗨。我首先会使用 OpenCalais 来查找文本或输入中的实体。这太棒了，我自己也用过很多次（来自路透社的人）。

之后，您可以进一步分析文本，在实体和单词之间创建关联。我可能会在类似 WordNet 中查找它们并尝试对它们进行典型化，甚至是 auto -生成一些与您尝试映射的域相匹配的本体。

至于如何将它们整合在一起，您可以做很多事情；上面的或者两遍或三遍模型试图弄清楚单词是什么和意味着什么。或者，如果您控制输入，请创建一种更易于解析的格式，或者沿着模糊路径走下去NLP（这很有趣）。

或者您可以使用 Jena 来解析任意 RDF 片段，尽管我不喜欢 RDF 前提我自己（我是主题映射者）。我写过一些东西，可以在维基百科中查找单词、短语或名称，并根据维基百科页面中找到的语义来评估它们的命中率（如果需要，我可以告诉你更多详细信息，但工作起来不是更有趣吗？）你自己想出比我更好的东西吗？链接数量、SeeAlso 数量、文本量、讨论页面有多大等等。

这些年来我写了很多东西（甚至是用 PHP 和 Perl 编写的；请参阅 Robert Barta 在 CPAN 上的主题地图，特别是一些强大的 TM 模块），从引擎到解析器再到中间的一些奇怪的东西。关联数组将单词和短语分开，创建累积直方图以对其组件进行排序等等。这都是有趣的东西，但至于收缩包装工具，我不太确定。每个人的目标和需求似乎都不同。这取决于您想要变得多么复杂和成熟。

无论如何，希望这能有所帮助。干杯! :)