尝试使用 Java 解析 HTML 目录列表中的链接
请有人帮我解析 HTML 页面中的这些链接
- http://nemertes.lis.upatras.gr/dspace/handle/123456789/2299
- http://nemertes.lis.upatras .gr/dspace/handle/123456789/3154
- http://nemertes.lis.upatras.gr/dspace/handle/123456789/3158
我想使用“进行解析句柄”这个词在这些链接中很常见。
我正在使用命令 [Pattern pattern = Pattern.compile("
href
页面的链接。
有什么建议吗?
谢谢
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您的正则表达式正在查看所有
标签。 “handle”始终用作“/dspace/handle”等,因此您可以使用类似的内容来抓取您要查找的网址:
Your regular expression is looking at ALL
<a href...
tags. "handle" is always used as "/dspace/handle" etc. so you can use something like this to scrape the urls you're looking for:看起来你的正则表达式做错了什么。而不是
尝试:
第一个模式上的“a.+”至少匹配任何字符一次。如果您打算设置空格字符,请改用“\s+”。
以下代码完美运行:
输出:
Looks like your regex is doing something wrong. Instead of
Try:
the 'a.+' on your first pattern is matching any character at least one time. If you intended to set the space character the use '\s+' instead.
The following code works perfect:
output: