当前位置：文江博客话题详情

英语文本词典比较

发布于 2024-10-13 19:13:46 字数 116 浏览 3 评论 0原文

让我们想象一下，我们可以建立一个统计表，统计每个单词在某些英文文本或书籍中的使用量。我们可以收集图书馆中每本文本/书籍的统计数据。比较这些统计数据的最简单方法是什么？我们如何找到具有统计上非常相似的词典的文本组/簇？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

_失温 2024-10-20 19:13:46

首先，您需要规范化词典（即确保两个词典具有相同词汇）。

然后，您可以使用相似性度量，例如 Hellenger 距离或余弦相似度比较两个词典。

研究一下机器学习包，例如 Weka 也可能是个好主意。

这本书是机器学习的绝佳资源，您可以觉得有用。

回复收藏 0 原文

落在眉间の轻吻 2024-10-20 19:13:46

我首先会看看 Lucene (http://lucene.apache.org/java/docs/index.html) 必须提供什么。之后，您将需要使用机器学习方法并查看 http://en.wikipedia.org/wiki /信息检索。

回复收藏 0 原文

转身泪倾城 2024-10-20 19:13:46

您可以考虑 Kullback Leibler 距离。有关参考，请参阅 Cover 和 Thomas 的第 18 页：

第二章，封面和托马斯

回复收藏 0 原文

~没有更多了~

关于作者

回眸一笑

暂无简介

文章

996 人气

关注发私信

lee_heart

文章 0 评论 0

关注

不喜欢何必死缠烂打

文章 0 评论 0

关注

huangxaiorui

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

画离情绘悲伤

文章 0 评论 0

关注

渚

文章 0 评论 0

友情链接

文江博客

英语文本词典比较

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签