是否可以通过Python进行HTML抓取、数据挖掘?
我可以使用 python 收集智能数据、HTML 抓取吗?我对此一无所知,所以我想了解一下。
Can I gather intelligent data , HTML scraping using python? I have no knowledge of it , so I would like to get some idea.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
查看模块 scrapy:
http://scrapy.org/
Look at the module scrapy:
http://scrapy.org/
你当然可以 - 我用 Python 开发了这个库来完成我的网络抓取工作。
一个好的解析库是 lxml。
如果您是 Python 新手,您可能需要先阅读这本电子书。
You certainly can - I developed this library in Python for my web scraping work.
A good parsing library is lxml.
If you are new to Python you may want to work through this ebook first.
尝试使用 urllib2 和 Beautiful Soup。
urllib2 对于以编程方式请求 URL 很有用。它是标准库的一部分: http://docs.python.org/library/urllib2
漂亮Soup 非常适合挖掘 HTML/XML,可以在这里找到: http://pypi.python.org/pypi /美丽汤
Try using urllib2 and Beautiful Soup.
urllib2 is useful for requesting URLs programmatically. It's part of the standard library: http://docs.python.org/library/urllib2
Beautiful Soup is good for mining HTML/XML and can be found here: http://pypi.python.org/pypi/BeautifulSoup
您还可以使用 htql 库:http://htql.net。
You may also use htql library at: http://htql.net.