是否可以通过Python进行HTML抓取、数据挖掘?

发布于 2024-11-04 14:51:37 字数 53 浏览 3 评论 0原文

我可以使用 python 收集智能数据、HTML 抓取吗?我对此一无所知,所以我想了解一下。

Can I gather intelligent data , HTML scraping using python? I have no knowledge of it , so I would like to get some idea.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

以歌曲疗慰 2024-11-11 14:51:37

查看模块 scrapy:

http://scrapy.org/

Look at the module scrapy:

http://scrapy.org/

灯角 2024-11-11 14:51:37

你当然可以 - 我用 Python 开发了这个库来完成我的网络抓取工作。

一个好的解析库是 lxml

如果您是 Python 新手,您可能需要先阅读这本电子书

You certainly can - I developed this library in Python for my web scraping work.

A good parsing library is lxml.

If you are new to Python you may want to work through this ebook first.

高冷爸爸 2024-11-11 14:51:37

尝试使用 urllib2 和 Beautiful Soup。

urllib2 对于以编程方式请求 URL 很有用。它是标准库的一部分: http://docs.python.org/library/urllib2

漂亮Soup 非常适合挖掘 HTML/XML,可以在这里找到: http://pypi.python.org/pypi /美丽汤

Try using urllib2 and Beautiful Soup.

urllib2 is useful for requesting URLs programmatically. It's part of the standard library: http://docs.python.org/library/urllib2

Beautiful Soup is good for mining HTML/XML and can be found here: http://pypi.python.org/pypi/BeautifulSoup

呆头 2024-11-11 14:51:37

您还可以使用 htql 库:http://htql.net

You may also use htql library at: http://htql.net.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文