当前位置：文江博客话题详情

用GOOGLE搜索html源代码？

发布于 2024-10-04 07:51:56 字数 1539 浏览 7 评论 0 原文

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not meet Stack Overflow guidelines. It is not currently accepting answers.

我们不允许提出寻求软件库、教程、工具、书籍或其他场外资源推荐的问题。您可以编辑问题，以便用事实和引文来回答。

3 年前已关闭。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

疧_╮線 2024-10-11 07:51:56

我在旅行中遇到了以下资源（上面已经提到了一些资源）：

专注于 HTML 标记的搜索引擎

Nerdydata

我还想添加以下内容：

巨大的网站抓取数据档案

Common Crawl - “多年来的免费网页数据帮助改变世界”（超过 250TB+）

我们如何分析此爬网数据？

了解如何开始要分析其中一些海量数据，请查看大数据/Map-reduce-type 框架。

Google 列出了一些关于使用 Apache Spark 项目的想法分析Common Crawl 的转储。要了解Common Crawl 使用的文件格式，请参阅以下内容：

文章，访问通用-Crawl-Dataset-on-S3，概述以低成本访问 Common Crawl 的 250TB+ 转储无需将该数据负载传输到 Amazon 的 AWS/S3 网络之外。当然，假设您将使用某种组合 AWS/EC2/S3 等. 分析抓取的数据。

最后，Patrick Durusau 维护一些有趣的 Common-Crawl-usage 相关博客页面。

就我个人而言，我觉得这个主题很有趣，我建议我们趁热获取此爬网数据！;-)

回复收藏 0 原文

萌化 2024-10-11 07:51:56

您可以尝试使用 PublicWWW 在源/标记中进行搜索。它允许在超过 1.67 亿个网站的网页源代码中查找任何 HTML、JavaScript、CSS 和纯文本。

使用 PublicWWW，您可以：

通过它们共享的独特 HTML 代码查找相关网站，即
小部件和发布商 ID。
识别使用特定图像或徽章的网站。
找出还有谁在使用您的主题。
识别提及您的网站。
找到你的竞争对手的附属公司。
确定您的竞争对手亲自协作或互动的网站。
使用库或平台的参考。
在网上查找代码示例。
找出谁在他们的网站上使用什么 JS 小部件。
...

当然，您不仅可以找到使用某些代码/标记片段的网站。

回复收藏 0 原文

~没有更多了~

关于作者

迷路的信

暂无简介

0 文章

0 评论

23 人气

关注发私信

苦中寻乐

文章 0 评论 0

关注

lueluelue

文章 0 评论 0

关注

嗼ふ静

文章 0 评论 0

关注

王权女流氓

文章 0 评论 0

关注

与花如笺

文章 0 评论 0

关注

残酷

文章 0 评论 0

友情链接

文江博客

用GOOGLE搜索html源代码？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

用GOOGLE搜索html源代码？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。