当前位置：文江博客话题详情

如何使用正则表达式从网页中提取数据？

发布于 2024-07-18 14:23:04 字数 479 浏览 6 评论 0原文

我正在编写一个curl脚本来收集有关一些性犯罪者的信息，我开发了一个脚本来获取如下所示的链接：

http://criminaljustice.state.ny.us/cgi/internet/nsor/...< /a> （截取的 URL）

现在，当我们进入此链接时，我希望将此页面上的所有字段下的信息（例如罪犯 ID：、姓氏等）获取到我自己的变量中。我在正则表达式方面很弱，这就是我来这里的原因。或者还有别的办法吗？

有人可以帮我做到这一点吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

太阳公公是暖光 2024-07-25 14:23:04

phpQuery 非常适合 PHP 中的屏幕抓取。它允许您使用与 jQuery 相同的方法访问 DOM。

回复收藏 0 原文

不再见 2024-07-25 14:23:04

您不需要正则表达式（请参阅您能否提供一些示例来说明为什么使用正则表达式解析 XML 和 HTML 很困难？，寻找适用于 PHP 的 HTML 解析器。请参阅此回答您能否提供一个使用您的代码解析 HTML 的示例最喜欢的解析器？

回复收藏 0 原文

有深☉意 2024-07-25 14:23:04

我倾向于同意之前的帖子，认为正则表达式不是完成这项工作的正确工具。如果你只是想要一个快速而肮脏的表达，这里是：

Offender Id:.*
.*&nbsp;[0-9]*

注意：
您必须在此表达式中包含换行符。另请注意，这是非常脆弱的，因为如果您正在解析的源发生很大变化，它就会崩溃。

I tend to agree with the previous poster about RegEx not being the right tool for the job. If you just want a quick and dirty expression, here goes:

Offender Id:.*
.*&nbsp;[0-9]*

NOTE:
You must include the newline in this expression. Also note that this is very fragile as it will break if the source that your are parsing changes much at all.

回复收藏 0 原文

~没有更多了~

关于作者

浅紫色的梦幻

暂无简介

0 文章

0 评论

21 人气

关注发私信

yangzhenyu123

文章 0 评论 0

关注

lvzun

文章 0 评论 0

关注

执笔绘流年

文章 0 评论 0

关注

芯好空

文章 0 评论 0

关注

始于初秋

文章 0 评论 0

关注

谁与争疯

文章 0 评论 0

友情链接

文江博客

如何使用正则表达式从网页中提取数据？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签