我在哪里可以找到网络上的原始文本转储?

发布于 2024-09-12 15:31:08 字数 127 浏览 5 评论 0原文

我希望在我正在编写的程序中进行一些文本分析。我正在寻找原始形式的替代文本源,类似于维基百科转储 (download.wikimedia.com) 中提供的内容。

我宁愿不必经历爬行网站、尝试解析 html、提取文本等的麻烦。

I am looking to do some text analysis in a program I am writing. I am looking for alternate sources of text in its raw form similar to what is provided in the Wikipedia dumps (download.wikimedia.com).

I'd rather not have to go through the trouble of crawling websites, trying to parse the html , extracting text etc..

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

和影子一齐双人舞 2024-09-19 15:31:08

您正在寻找什么类型的文本?

古腾堡计划 提供许多 .txt 格式的免费电子书(小说和非小说) 。

他们还有大型 DVD 图像,其中包含可供下载的书籍。

What sort of text are you looking for?

There are many free e-books (fiction and non-fiction) in .txt format available at Project Gutenberg.

They also have large DVD images full of books available for download.

似梦非梦 2024-09-19 15:31:08

NLTK 提供了一个简单的 Python API 来访问 许多文本语料库,包括古腾堡、路透社、莎士比亚等。

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

NLTK provides a simple Python API to access many text corpora, including Gutenberg, Reuters, Shakespeare, and others.

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
淡笑忘祈一世凡恋 2024-09-19 15:31:08

古腾堡项目拥有大量各种格式的电子书(包括纯文本)

the gutenberg project has huge amounts of ebooks in various formats (including plain text)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文