英语文本词典比较

发布于 2024-10-13 19:13:46 字数 116 浏览 3 评论 0原文

让我们想象一下,我们可以建立一个统计表,统计每个单词在某些英文文本或书籍中的使用量。我们可以收集图书馆中每本文本/书籍的统计数据。 比较这些统计数据的最简单方法是什么?我们如何找到具有统计上非常相似的词典的文本组/簇?

Let's imagine, we can build a statistics table, how much each word is used in some English text or book. We can gather statistics for each text/book in library.
What is the simplest way to compare these statistics with each other? How can we find group/cluster of texts with very statistically similar lexicon?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

_失温 2024-10-20 19:13:46

首先,您需要规范化词典(即确保两个词典具有相同词汇)。

然后,您可以使用相似性度量,例如 Hellenger 距离余弦相似度 比较两个词典。

研究一下机器学习包,例如 Weka 也可能是个好主意。

这本书是机器学习的绝佳资源,您可以觉得有用。

First, you'd need to normalize the lexicon (i.e ensure that both lexicons have the same vocabulary).

Then you could use a similarity metric like the Hellenger distance or the cosine similarity to compare the two lexicons.

It may also be a good idea to look into machine learning packages such as Weka.

This book is an excellent source for machine learning and you may find it useful.

落在眉间の轻吻 2024-10-20 19:13:46

我首先会看看 Lucene (http://lucene.apache.org/java/docs/index.html) 必须提供什么。之后,您将需要使用机器学习方法并查看 http://en.wikipedia.org/wiki /信息检索

I would start by seeing what Lucene (http://lucene.apache.org/java/docs/index.html ) had to offer. After that you will need to use a machine learning method and look at http://en.wikipedia.org/wiki/Information_retrieval.

转身泪倾城 2024-10-20 19:13:46

您可以考虑 Kullback Leibler 距离。有关参考,请参阅 Cover 和 Thomas 的第 18 页:

第二章,封面和托马斯

You might consider Kullback Leibler distance. For reference, see page 18 of Cover and Thomas:

Chapter 2, Cover and Thomas

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文