网页抓取(流行网站的 HTML 格式)

发布于 2024-09-30 05:52:32 字数 39 浏览 1 评论 0原文

如何抓取任何网站来为我的网站创建提要?最流行的网站遵循什么格式?

How do I scrape any website for creating a feed for my website? What format do most popular sites follow?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

二货你真萌 2024-10-07 05:52:32

您必须对每个网站进行逆向工程,因为它们不遵循通用格式或其他内容(网络开发人员的自由)。只抓取他们的 rss feed 怎么样?

You'd have to reverse-engineer each website, because they don't follow a common format or something (freedom of the web developer). What about just scraping their rss feeds?

童话里做英雄 2024-10-07 05:52:32

我正在使用 Octoparse(免费的网络抓取工具) 向最终用户提供及时的信息。

我用它从多个数据源中抓取数据,并将提取的数据转换为结构化数据表。可以轻松地自动向所有订阅您的数据源的用户提供大量及时的信息。
您只需在 Octoparse 中安排提取任务即可自动收集 Web 数据并使用最新的 Internet 内容丰富您的应用程序。

I'm using Octoparse(A free web scraper) to deliver timely information to end users.

I use it to scrape data from multiple data sources and convert the extracted data into structured tables of data. It’s easy to automatically deliver enormous timely information to all the users who have subscribed to your data feed.
You just schedule an extraction task in Octoparse to collect web data automatically and enrich your applications with up-to-date Internet content.

空气里的味道 2024-10-07 05:52:32

我不相信很多网站都会抓取内容,但如果您愿意,我会选择 RSS(真正简单的聚合)。几乎每个网站都会有一个,并且从中进行抓取很容易。
RSS 2.0 规范

Brian 发表了一篇关于阅读 RSS 的几种方法(用 C#)的好文章。

http://msdn.microsoft.com/en-us/library/bb943474。 .aspx

http://msdn.microsoft.com /en-us/library/system.servicemodel.synmination.synminationfeed.aspx

http://msdn.microsoft.com/en-us/library /bb943480.aspx

这里是一些基于网络的工具也可以通过组合多个其他工具来制作单个提要。

在此引用该列表:

  1. RSS 混合器
  2. FeedBlendr
  3. FeedTwister
  4. 博客筛
  5. RSSMesh
  6. RSS 混合
  7. BlastFeed
  8. 饲料联合收割机
  9. 弗兰肯饲料
  10. 雅虎管道

希望这会有所帮助:)

I don't believe many sites scrape for content, but if you wish to, I would go with RSS (Really Simple Syndication). Almost every website will have one, and the scraping from that is easy.
RSS 2.0 Specification

Brian makes a nice post on a few ways to read RSS (in C#).

http://msdn.microsoft.com/en-us/library/bb943474.aspx

http://msdn.microsoft.com/en-us/library/system.servicemodel.syndication.syndicationfeed.aspx

http://msdn.microsoft.com/en-us/library/bb943480.aspx

Here are some web-based tools as well to make a single feed from combining multiple others.

Quoted the list here:

  1. RSS Mixer
  2. FeedBlendr
  3. FeedTwister
  4. BlogSieve
  5. RSSMesh
  6. RSS Mix
  7. BlastFeed
  8. Feed Combine
  9. FrankenFeed
  10. Yahoo Pipes

Hope this helps :)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文