当前位置：文江博客话题详情

我在哪里可以找到网络上的原始文本转储？

发布于 2024-09-12 15:31:08 字数 127 浏览 9 评论 0原文

我希望在我正在编写的程序中进行一些文本分析。我正在寻找原始形式的替代文本源，类似于维基百科转储 (download.wikimedia.com) 中提供的内容。

我宁愿不必经历爬行网站、尝试解析 html、提取文本等的麻烦。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

和影子一齐双人舞 2024-09-19 15:31:08

您正在寻找什么类型的文本？

古腾堡计划提供许多 .txt 格式的免费电子书（小说和非小说）。

他们还有大型 DVD 图像，其中包含可供下载的书籍。

回复收藏 0 原文

似梦非梦 2024-09-19 15:31:08

NLTK 提供了一个简单的 Python API 来访问许多文本语料库，包括古腾堡、路透社、莎士比亚等。

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

NLTK provides a simple Python API to access many text corpora, including Gutenberg, Reuters, Shakespeare, and others.

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

回复收藏 0 原文

淡笑忘祈一世凡恋 2024-09-19 15:31:08

古腾堡项目拥有大量各种格式的电子书（包括纯文本）

回复收藏 0 原文

~没有更多了~

关于作者

原来是傀儡

暂无简介

0 文章

0 评论

26 人气

关注发私信

Cooper

文章 0 评论 0

关注

Great Marx

文章 0 评论 0

关注

感性

文章 0 评论 0

关注

mb_IvyEMzfd

文章 0 评论 0

关注

止于盛夏

文章 0 评论 0

关注

记忆で

文章 0 评论 0

友情链接

文江博客

我在哪里可以找到网络上的原始文本转储？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签