当前位置：文江博客话题详情

PHP 中的 HTML 抓取

发布于 2024-07-04 02:45:01 字数 104 浏览 9 评论 0原文

我一直在使用正则表达式在 PHP 中进行一些 HTML 抓取。这可行，但结果是挑剔且脆弱的。有没有人使用过任何提供更强大解决方案的软件包？配置驱动的解决方案将是理想的，但我并不挑剔。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦毁影碎の 2024-07-11 02:45:01

从页面中抓取 HTML 后，我会推荐 PHP Simple HTML DOM Parser 。它支持无效的 HTML，并提供了一种非常简单的方法来处理 HTML 元素。

回复收藏 0 原文

街道布景 2024-07-11 02:45:01

如果您正在抓取的页面是有效的 X(HT)ML，则任何 PHP 的内置的 XML 解析器就可以了。

我在使用 PHP 库进行抓取方面还没有取得太大成功。如果您喜欢冒险，可以尝试 simplehtmldom。我建议 Ruby 使用 Hpricot 或 Beautiful Soup for Python，它们都是优秀的 HTML 解析器。

回复收藏 0 原文

别挽留 2024-07-11 02:45:01

我还推荐“简单的 HTML DOM 解析器”。这是一个不错的选择，特别是如果您熟悉 jQuery 或 JavaScript 选择器，那么您会发现自己宾至如归。

我什至在博客中介绍过它过去。

回复收藏 0 原文

梦罢 2024-07-11 02:45:01

我使用 htmlSQL 获得了一些乐趣，这并不是一个高端解决方案，但非常简单与. 一起工作。

回复收藏 0 原文

止于盛夏 2024-07-11 02:45:01

使用 PHP 进行 HTML 抓取，我建议使用 cURL + regexp 或 cURL + 一些 DOM 解析器，尽管我个人使用 cURL + regexp。如果您对正则表达式有深入的了解，有时它实际上会更准确。

回复收藏 0 原文

念﹏祤嫣 2024-07-11 02:45:01

我使用上面提到的 Simple Html DOM Parser 也得到了很好的结果。然后还有 tidy PHP 扩展，它也运行得很好。

回复收藏 0 原文

纵山崖 2024-07-11 02:45:01

我必须在主机 1 和 1 上使用curl。

http://www.quickscrape.com/ 是我使用 Simple DOM 类想出的！

回复收藏 0 原文

~没有更多了~

关于作者

风吹短裙飘

暂无简介

0 文章

0 评论

22 人气

关注发私信

謌踐踏愛綪

文章 0 评论 0

关注

开始看清了

文章 0 评论 0

关注

高速公鹿

文章 0 评论 0

关注

alipaysp_PLnULTzf66

文章 0 评论 0

关注

热情消退

文章 0 评论 0

关注

白色月光

文章 0 评论 0

友情链接

文江博客

PHP 中的 HTML 抓取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

关于作者

相关话题

热门标签