大量免费的英语非代词文本

发布于 2024-08-28 02:44:03 字数 432 浏览 9 评论 0原文

作为自学 python 的一部分，我编写了一个允许用户玩刽子手的脚本。目前，只需在脚本代码的开头手动输入要猜测的刽子手单词即可。

我希望脚本从大量英语单词中随机选择。我知道该怎么做 - 我的问题是首先找到要工作的单词列表。

有谁知道网上有 1000 个常见英语单词的来源吗？可以将它们作为文本块或类似的内容下载，以便我使用？

（我最初的想法是从古腾堡项目中获取一部小说的一部分[这个项目只是为了我自己的娱乐，不会在其他任何地方提供，所以顺便说一句，版权等对我来说并不重要]，但类似的事情很可能包含太多不适合刽子手的名称或非标准单词，我需要的文本基本上只有在拼字游戏中合法使用的单词）。

我想这是一个有点奇怪的问题，但实际上我认为答案可能不仅对我有用，而且对从事文字游戏或类似项目的任何其他人都有用，这些项目需要大量的单词种子列表来工作。

非常感谢您的任何链接或建议:)

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

北凤男飞 2024-09-04 02:44:03

这个有用吗？

回复收藏 0 原文

紫轩蝶泪 2024-09-04 02:44:03

您尝试过 /usr/share/dict/words 吗？

回复收藏 0 原文

千纸鹤带着心事 2024-09-04 02:44:03

手动创建文本列表

从古腾堡计划、维基百科或其他来源获取文本。浏览文本并计算每个单词出现的次数。最常出现的单词是代词、连词等等……把它们扔掉吧。

专有名词可能是最不常见的单词，当然，除非您的文本是故事，否则角色名称可能会经常出现。也许处理专有名词的最佳方法是使用许多来源并计算该单词在多少个来源中找到。本质上，在许多不同来源中常见的单词可能不是专有名词。您可以丢弃特定于某一文本源的单词。这个想法与 tfidf 相关。

一旦计算出这些词频，就可以轻松查看这些词并根据需要调整列表。

使用 Wordnet

另一个想法是从 Wordnet 下载单词。 Wordnet 告诉我们很多单词的词性。您可以根据自己的目的只使用名词和动词。

回复收藏 0 原文

~没有更多了~

关于作者

微暖i

暂无简介

0 文章

0 评论

25 人气

关注发私信

友情链接

文江博客

大量免费的英语非代词文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

大量免费的英语非代词文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。