当前位置：文江博客话题详情

dictionary compression database

从哪里可以获得可在免费软件中使用的频率排序字典？

发布于 2024-12-10 07:11:02 字数 224 浏览 1 评论 0原文

我需要一个用于压缩程序的按频率排序的字典（许可或 GPLv3 兼容许可证），但没有丝毫线索可以在这样的许可证下获得一个（所有都缺少或错误的版权声明）。有人可以推荐一下哪里可以买到吗？我已经寻找了一段时间，但我唯一的选择似乎是创建自己的电子书，我怀疑电子书的有效质量。（它不能完全代表所有英语，更不用说现代英语了，我的目标。）

PS：大约 200,000-50,000 字是一个很好的目标。巨大的文件不是一个好主意。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

北座城市 2024-12-17 07:11:02

您想要的是基于大量具有代表性的英语文本构建的一元分布。 “一元分布”是您所说的“频率词典”的正式术语。

Google 在许可下发布了大量 ngram 集合。

请参阅 http://googleresearch。 blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html。

或者http://books.google.com/ngrams/datasets。

如果您不需要所有这些晦涩的单词，那么只需将分布切成您想要的即可。

至于许可，甚至 FSF 也表示 GPL 不适用于词典。它们不是“来源”。因此，这里的 CC 许可证非常适合合并到任何内容中。

如果您不关心拥有完全代表性的数据，那么请下载维基百科转储和用于提取文本的 Ruby 工具，并进行您自己的一元分布。

无论您选择什么，如果您想要有用的结果，您都将使用大量数据。

回复收藏 0 原文

放手` 2024-12-17 07:11:02

看看这里： http://norvig.com/ngrams/

包含这个，这可能就是您需要的：

4.9 MB count_1w.txt - 1/3 百万个最常见的单词，全部小写，带有计数。（在本章中称为 vocab_common，但我在此处更改了文件名。）
5.6 MB count_2w.txt - 1/4 百万个最常见的双字（小写）双字母组，带有计数。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文