从非英语网站获取纯文本内容
我正在尝试获取非英语网站的纯文本内容。例如,我想获取 http://www.bbc.co.uk/hindi 的印地语内容/
对于英文网站的文本转储,我使用 wget
来获取内容。然后使用 HTML 解析器删除 HTML 标签并给我干净的文本。
在非英语网站上工作的等效工具是什么?
这只是我正在探索的一些宠物项目。速度并不是太重要。我会在 Linux 环境中编码,最好使用 Python 或 Java 或 C/C++(按顺序)。
I am trying to get the text-only contents of a non-English website. For example, I want to get the hindi contents of http://www.bbc.co.uk/hindi/
For text dump of an English website, I use wget
to fetch the contents. Then use an HTML parser for removing the HTML tags and give me clean text.
What are the equivalent tools for working on a non-English website?
This is just some pet project that I'm exploring. Speed is not much of a concern. I would code in Linux environment and preferably use Python or Java or C/C++ (in that order).
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
听起来您用来解析 HTML 的方法在遇到 unicode 时会失败。有一个名为 BeautifulSoup 的模块,非常适合解析各种网站,并且可以很好地处理 unicode。尝试交互:
我的终端无法打印这些字符,但是您通常显示的印地语文本在这里也应该可以工作。
It sounds like the method you're using to parse HTML falls down when encountering unicode. There's a module called BeautifulSoup that's great for parsing all manner of websites, and it handles unicode just fine. Try interactively:
My terminal can't print these characters, but however you usually display Hindi text should work here as well.