当前位置：文江博客话题详情

怎么写抓取的 html 特征节点

发布于 2021-11-20 01:11:12 字数 364 浏览 869 评论 17

@黄亿华你好，想跟你请教个问题：

page.putField("intro",page.getHtml().xpath("//div[@class='left_648 top_border']/div[...

要得到图中的文字，上面这个表达式是要怎么写？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

爱你是孤单的心事 2021-11-24 23:02:54

已经加到
webmagic的issue里了：https://github.com/code4craft/webmagic/issues/7

回复收藏 0

毁梦 2021-11-24 23:02:54

暂时不打算这么做，因为对xpath不是特别熟，这么做纠错可能有新问题。我想到的做法是异常把错误的字符标记出来，看看能不能做。

回复收藏 0

醉生梦死 2021-11-24 23:02:54

回复
en . 是这个问题，能不能考虑处理下最后的 /

回复收藏 0

南冥有猫 2021-11-24 23:02:54

结尾多了一个"/"，HtmlCleaner的XPath解析貌似不是很健壮... "//div[@class='left_648 top_border']/div[@class='pad_20 line_22']"这样子就对了

回复收藏 0

笑红尘 2021-11-24 23:02:54

有个笨方法就是获取html 计算节点字符数在截取...

回复收藏 0

柒夜笙歌凉 2021-11-24 23:02:54

en . 可不能总这样干啊！

回复收藏 0

爱的故事 2021-11-24 23:02:54

空格是不需要转义的，去掉\再试试？

回复收藏 0

冬天旳寂寞 2021-11-24 23:02:54

空格是不需要转义的，去掉\再试试？

回复收藏 0

永不分离 2021-11-24 23:02:52

空格是不需要转义的，去掉\再试试？

回复收藏 0

各自安好 2021-11-24 23:02:52

@黄亿华
~

回复收藏 0

回忆凄美了谁 2021-11-24 22:59:45

你先找一个专门写正则的软件。把你要匹配的数据拷贝过去。选取你需要的正则风格。然后去尝试就行。正则表达式不同的语言标准是不一样的。

回复收藏 0

静谧 2021-11-24 22:56:18

空格是不需要转义的，去掉\再试试？

回复收藏 0

初见你 2021-11-24 22:48:05

你先找一个专门写正则的软件。把你要匹配的数据拷贝过去。选取你需要的正则风格。然后去尝试就行。正则表达式不同的语言标准是不一样的。

回复收藏 0

牵你的手，一向走下去 2021-11-24 22:46:16

貌似不支持带空格的 class ?

回复收藏 0

心欲静而疯不止 2021-11-24 22:39:18

空格是不需要转义的，去掉\再试试？

回复收藏 0

绝影如岚 2021-11-24 09:06:29

page.putField("intro",page.getHtml().xpath("//div[@class='left_648\ top_border']/div[@class='pad_20\ line_22']/").all());

这样，报异常 :

org.htmlcleaner.XPatherException: Error in evaluating XPath expression!

回复收藏 0

终陌 2021-11-24 08:14:25

空格是不需要转义的，去掉\再试试？

回复收藏 0

~没有更多了~

关于作者

眉黛浅

暂无简介

文章

679 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

怎么写抓取的 html 特征节点

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（17）

关于作者

相关话题

热门标签

推荐作者

櫻之舞