当前位置：文江博客话题详情

网页抓取（流行网站的 HTML 格式）

发布于 2024-09-30 05:52:32 字数 39 浏览 11 评论 0原文

如何抓取任何网站来为我的网站创建提要？最流行的网站遵循什么格式？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

二货你真萌 2024-10-07 05:52:32

您必须对每个网站进行逆向工程，因为它们不遵循通用格式或其他内容（网络开发人员的自由）。只抓取他们的 rss feed 怎么样？

回复收藏 0 原文

童话里做英雄 2024-10-07 05:52:32

我正在使用 Octoparse（免费的网络抓取工具）向最终用户提供及时的信息。

我用它从多个数据源中抓取数据，并将提取的数据转换为结构化数据表。可以轻松地自动向所有订阅您的数据源的用户提供大量及时的信息。
您只需在 Octoparse 中安排提取任务即可自动收集 Web 数据并使用最新的 Internet 内容丰富您的应用程序。

回复收藏 0 原文

空气里的味道 2024-10-07 05:52:32

我不相信很多网站都会抓取内容，但如果您愿意，我会选择 RSS（真正简单的聚合）。几乎每个网站都会有一个，并且从中进行抓取很容易。
RSS 2.0 规范

Brian 发表了一篇关于阅读 RSS 的几种方法（用 C#）的好文章。

http://msdn.microsoft.com/en-us/library/bb943474。 .aspx
http://msdn.microsoft.com /en-us/library/system.servicemodel.synmination.synminationfeed.aspx
http://msdn.microsoft.com/en-us/library /bb943480.aspx

这里是一些基于网络的工具也可以通过组合多个其他工具来制作单个提要。

在此引用该列表：

RSS 混合器
FeedBlendr
FeedTwister
博客筛
RSSMesh
RSS 混合
BlastFeed
饲料联合收割机
弗兰肯饲料
雅虎管道

希望这会有所帮助:)

回复收藏 0 原文

~没有更多了~

关于作者

自此以后，行同陌路

暂无简介

0 文章

0 评论

773 人气

关注发私信

浪漫人生路

文章 0 评论 0

关注

620vip

文章 0 评论 0

关注

羞稚

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

你好刘可爱

文章 0 评论 0

关注

陌若浮生

文章 0 评论 0

友情链接

文江博客

网页抓取（流行网站的 HTML 格式）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签