如何使用 jsoup 从网页中的所有段落中提取完整 URL
如何使用 jsoup 从网页上的所有段落中提取完整的 URL?我只能提取相对 URL。
预期: http://fr.wikipedia.org/wiki/Husni_al-Zaim
实际: /Husni_al-Zaim
我的代码:
Elements links = doc.select("p");
Elements linkss = links.select("a");
for (Element link : linkss) {
if (link.text().matches("^[A-Z].+") == true) {
list.add(new NamedLink(link.attr("href"), link.text()));
}
}
How do I extract full URL's from all paragraphs on a web page using jsoup? I am able to extract only the relative URL's.
Expected:http://fr.wikipedia.org/wiki/Husni_al-Zaim
Actual: /Husni_al-Zaim
My Code:
Elements links = doc.select("p");
Elements linkss = links.select("a");
for (Element link : linkss) {
if (link.text().matches("^[A-Z].+") == true) {
list.add(new NamedLink(link.attr("href"), link.text()));
}
}
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
使用
.absUrl("href")
而不是.attr("href")
。仅当您从网页获取文档或从磁盘解析完整文件时,这才有效(因此不要像示例中那样将部分内容从 HTML 转换为文本并返回)。Use
.absUrl("href")
instead of.attr("href")
. This only works when you get the document from a webpage or parse the full file from disk (and thus do not massage portions from HTML to text and back as in your example).