当前位置：文江博客话题详情

抓取页面

发布于 2024-10-17 07:20:01 字数 339 浏览 4 评论 0原文

抓取经销商库存页面的可怕混乱的最佳实践是什么（使用 js 记录。编写，然后使用纯文本 html 关闭它）？没有 div/tds/任何东西都标有任何 id 或类等。

我应该直接 preg_match(?_all) 东西还是有一些 xpath 魔法我可以做？没有 api、没有 feed、没有 xml，什么都干净。

编辑：

- 我基本上想到的 atm 类似于 http://pastebin.com/raw.php? i=EuMfRVD5 - 这是我最好的选择还是还有其他方法？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

歌枕肩 2024-10-24 07:20:01

你的例子还不够。但是，由于您似乎无论如何都不需要突出显示元信息，因此可以通过以下操作来撤销 JS 混淆：

$html = preg_replace('# <script .*? (?: document.write\("(.*?)"\) )? .*? </script> #six', "$1", $html);

也许这已经足够好，可以在之后通过其中一个 DOM 库进行管道传输。

Your example is not enough of an example. But since you seemingly don't need the highlighting meta info anyway, the JS-obfuscation could be undone with a bit of:

$html = preg_replace('# <script .*? (?: document.write\("(.*?)"\) )? .*? </script> #six', "$1", $html);

Maybe that's already good enough to pipe it through one of the DOM libraries afterwards.

回复收藏 0 原文

活雷疯 2024-10-24 07:20:01

一般来说，您应该始终使用 http://www.php.net/DOM 来解析页面。正则表达式很糟糕，通常完全不可能用于解析 html，因为这不是它的构建目的。

然而...如果页面使用大量 javascript 来输出内容，那么无论如何你都是 SoL。要获得完整的图片，您真正能做的最好的事情就是抓取它并通过浏览器运行它并解析呈现的内容。可以将其自动化，尽管设置起来有点麻烦。

但是...考虑到 js 输出大量的问题...也许正则表达式确实是最好的路线。但我想首先也是最重要的取决于实际内容是什么以及您试图从页面获取什么。

回复收藏 0 原文

~没有更多了~

关于作者

怪异←思

暂无简介

0 文章

0 评论

23 人气

关注发私信

束缚ｍ

文章 0 评论 0

关注

alipaysp_VP2a8Q4rgx

文章 0 评论 0

关注

α

文章 0 评论 0

关注

一口甜

文章 0 评论 0

关注

厌味

文章 0 评论 0

关注

转身泪倾城

文章 0 评论 0

友情链接

文江博客

抓取页面

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接

抓取页面

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。