怎么写抓取的 html 特征节点

发布于 2021-11-20 01:11:12 字数 364 浏览 866 评论 17

@黄亿华 你好,想跟你请教个问题:

page.putField("intro",page.getHtml().xpath("//div[@class='left_648 top_border']/div[...

要得到图中的文字, 上面这个表达式 是要怎么写 ?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(17

爱你是孤单的心事 2021-11-24 23:02:54

已经加到
webmagic的issue里了:https://github.com/code4craft/webmagic/issues/7

毁梦 2021-11-24 23:02:54

暂时不打算这么做,因为对xpath不是特别熟,这么做纠错可能有新问题。我想到的做法是异常把错误的字符标记出来,看看能不能做。

醉生梦死 2021-11-24 23:02:54

回复
en . 是这个问题, 能不能考虑处理下最后的 /

南冥有猫 2021-11-24 23:02:54

结尾多了一个"/",HtmlCleaner的XPath解析貌似不是很健壮... "//div[@class='left_648 top_border']/div[@class='pad_20 line_22']"这样子就对了

笑红尘 2021-11-24 23:02:54

有个笨方法就是获取html 计算节点字符数在截取...

柒夜笙歌凉 2021-11-24 23:02:54

en . 可不能总这样干啊 !

爱的故事 2021-11-24 23:02:54

空格是不需要转义的,去掉\再试试?

冬天旳寂寞 2021-11-24 23:02:54

空格是不需要转义的,去掉\再试试?

永不分离 2021-11-24 23:02:52

空格是不需要转义的,去掉\再试试?

回忆凄美了谁 2021-11-24 22:59:45

你先找一个专门写正则的软件。把你要匹配的数据拷贝过去。选取你需要的正则风格。然后去尝试就行。正则表达式不同的语言标准是不一样的。

静谧 2021-11-24 22:56:18

空格是不需要转义的,去掉\再试试?

初见你 2021-11-24 22:48:05

你先找一个专门写正则的软件。把你要匹配的数据拷贝过去。选取你需要的正则风格。然后去尝试就行。正则表达式不同的语言标准是不一样的。

牵你的手,一向走下去 2021-11-24 22:46:16

貌似不支持带空格的 class ?

心欲静而疯不止 2021-11-24 22:39:18

空格是不需要转义的,去掉\再试试?

绝影如岚 2021-11-24 09:06:29
page.putField("intro",page.getHtml().xpath("//div[@class='left_648\ top_border']/div[@class='pad_20\ line_22']/").all());

这样, 报异常 :

org.htmlcleaner.XPatherException: Error in evaluating XPath expression!

终陌 2021-11-24 08:14:25

空格是不需要转义的,去掉\再试试?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文