网页抓取(流行网站的 HTML 格式)
如何抓取任何网站来为我的网站创建提要?最流行的网站遵循什么格式?
How do I scrape any website for creating a feed for my website? What format do most popular sites follow?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
您必须对每个网站进行逆向工程,因为它们不遵循通用格式或其他内容(网络开发人员的自由)。只抓取他们的 rss feed 怎么样?
You'd have to reverse-engineer each website, because they don't follow a common format or something (freedom of the web developer). What about just scraping their rss feeds?
我正在使用 Octoparse(免费的网络抓取工具) 向最终用户提供及时的信息。
我用它从多个数据源中抓取数据,并将提取的数据转换为结构化数据表。可以轻松地自动向所有订阅您的数据源的用户提供大量及时的信息。
您只需在 Octoparse 中安排提取任务即可自动收集 Web 数据并使用最新的 Internet 内容丰富您的应用程序。
I'm using Octoparse(A free web scraper) to deliver timely information to end users.
I use it to scrape data from multiple data sources and convert the extracted data into structured tables of data. It’s easy to automatically deliver enormous timely information to all the users who have subscribed to your data feed.
You just schedule an extraction task in Octoparse to collect web data automatically and enrich your applications with up-to-date Internet content.
我不相信很多网站都会抓取内容,但如果您愿意,我会选择 RSS(真正简单的聚合)。几乎每个网站都会有一个,并且从中进行抓取很容易。
RSS 2.0 规范
Brian 发表了一篇关于阅读 RSS 的几种方法(用 C#)的好文章。
这里是一些基于网络的工具也可以通过组合多个其他工具来制作单个提要。
在此引用该列表:
希望这会有所帮助:)
I don't believe many sites scrape for content, but if you wish to, I would go with RSS (Really Simple Syndication). Almost every website will have one, and the scraping from that is easy.
RSS 2.0 Specification
Brian makes a nice post on a few ways to read RSS (in C#).
Here are some web-based tools as well to make a single feed from combining multiple others.
Quoted the list here:
Hope this helps :)