寻找.txt词频列表来测试程序
我想要一个包含 200-1000 个左右最常用英语单词的文件。 我已经能够找到包含 200,000 个单词或其他内容的荒谬列表,但没有找到包含更少量更常用单词的列表。
最好每行一个单词,但如果不是,我可以对其进行格式化。
谢谢!
I'd like a file of the 200-1000 or so most frequently used words in the English language. I've been able to find ridiculous lists of 200,000 words or whatever, but nothing with a smaller set of the more frequently used words.
Preferably the words would be one per line but if it's not then I can format it.
THANKS!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
我在谷歌上搜索“按频率排列的英语单词”,找到了一些很好的来源。 这是wiktionary.org 上的一个。
I searched Google for "english words by frequency" and found a number of good sources. Here is one on wiktionary.org.
这里是前 500 名。您可以从 HTML 中抓取该列表。
Here's the top 500. You can probably scrape out the list from the HTML.
这是来自 McWafflestix 链接的前 250 个(您强调少即是多),直接向上,没有多余的空格等,这要归功于 emacs 中的kill-rectangle。 我不得不说,这是一个非常琐碎且与编程无关的问题。
Here's the top 250 (you emphasized less is more) from McWafflestix's link, straight up, no extraneous spaces, etc, thanks to kill-rectangle in emacs. I have to say, this is a pretty trivial and non-programming-related.
可以编写一个简单的解决方案,虽然未经测试,但应该是 99% 好的。
A simple solution could be writen this is untested but should be 99% good.