webmagic 如何使用xpath获取 <a>的内部值

发布于 2021-11-18 14:33:47 字数 504 浏览 890 评论 4

@黄亿华 刚开始接触爬虫,请教一个简单的问题:在使用webmagic 时 page.putField("title", page.getHtml().xpath("/html/body/table[5]/tbody/tr[5]/td[1]").toString()); 获取到的信息是【<td height="33"><a href="http://www.chinabond.com.cn/jsp/include/EJB/yhxx.jsp?Banks=0001" onclick="window.open(this.href,'','scrollbars=no,width=500,height=330');return false;"> 工商银行 </a></td>】;但是实际上只想得到【工商银行】这个结果,请问xpath如何修改,谢谢!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

凯凯我们等你回来 2021-11-22 22:49:38

"//div[@class='authi'][1]",没测试过,不知道是不是支持这个语法....

奢华的一滴泪 2021-11-22 16:27:27

想请教一下,<div class="authi">,xpath如何获取这类div中的第一个呢?@黄亿华  谢谢

德意的啸 2021-11-22 07:52:22

管用,谢谢!

青萝楚歌 2021-11-21 16:19:00

/html/body/table[5]/tbody/tr[5]/td[1]/a/text()

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文