我在哪里可以找到网络上的原始文本转储?
我希望在我正在编写的程序中进行一些文本分析。我正在寻找原始形式的替代文本源,类似于维基百科转储 (download.wikimedia.com) 中提供的内容。
我宁愿不必经历爬行网站、尝试解析 html、提取文本等的麻烦。
I am looking to do some text analysis in a program I am writing. I am looking for alternate sources of text in its raw form similar to what is provided in the Wikipedia dumps (download.wikimedia.com).
I'd rather not have to go through the trouble of crawling websites, trying to parse the html , extracting text etc..
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
您正在寻找什么类型的文本?
古腾堡计划 提供许多 .txt 格式的免费电子书(小说和非小说) 。
他们还有大型 DVD 图像,其中包含可供下载的书籍。
What sort of text are you looking for?
There are many free e-books (fiction and non-fiction) in .txt format available at Project Gutenberg.
They also have large DVD images full of books available for download.
NLTK 提供了一个简单的 Python API 来访问 许多文本语料库,包括古腾堡、路透社、莎士比亚等。
NLTK provides a simple Python API to access many text corpora, including Gutenberg, Reuters, Shakespeare, and others.
古腾堡项目拥有大量各种格式的电子书(包括纯文本)
the gutenberg project has huge amounts of ebooks in various formats (including plain text)