@黄亿华 你好,想跟你请教个问题:
page.putField("intro",page.getHtml().xpath("//div[@class='left_648 top_border']/div[...
要得到图中的文字, 上面这个表达式 是要怎么写 ?
已经加到webmagic的issue里了:https://github.com/code4craft/webmagic/issues/7
暂时不打算这么做,因为对xpath不是特别熟,这么做纠错可能有新问题。我想到的做法是异常把错误的字符标记出来,看看能不能做。
回复en . 是这个问题, 能不能考虑处理下最后的 /
结尾多了一个"/",HtmlCleaner的XPath解析貌似不是很健壮... "//div[@class='left_648 top_border']/div[@class='pad_20 line_22']"这样子就对了
有个笨方法就是获取html 计算节点字符数在截取...
en . 可不能总这样干啊 !
空格是不需要转义的,去掉\再试试?
@黄亿华 ~
你先找一个专门写正则的软件。把你要匹配的数据拷贝过去。选取你需要的正则风格。然后去尝试就行。正则表达式不同的语言标准是不一样的。
貌似不支持带空格的 class ?
page.putField("intro",page.getHtml().xpath("//div[@class='left_648\ top_border']/div[@class='pad_20\ line_22']/").all());
这样, 报异常 :
org.htmlcleaner.XPatherException: Error in evaluating XPath expression!
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(17)
已经加到
webmagic的issue里了:https://github.com/code4craft/webmagic/issues/7
暂时不打算这么做,因为对xpath不是特别熟,这么做纠错可能有新问题。我想到的做法是异常把错误的字符标记出来,看看能不能做。
回复
en . 是这个问题, 能不能考虑处理下最后的 /
结尾多了一个"/",HtmlCleaner的XPath解析貌似不是很健壮... "//div[@class='left_648 top_border']/div[@class='pad_20 line_22']"这样子就对了
有个笨方法就是获取html 计算节点字符数在截取...
en . 可不能总这样干啊 !
空格是不需要转义的,去掉\再试试?
空格是不需要转义的,去掉\再试试?
空格是不需要转义的,去掉\再试试?
@黄亿华
~
你先找一个专门写正则的软件。把你要匹配的数据拷贝过去。选取你需要的正则风格。然后去尝试就行。正则表达式不同的语言标准是不一样的。
空格是不需要转义的,去掉\再试试?
你先找一个专门写正则的软件。把你要匹配的数据拷贝过去。选取你需要的正则风格。然后去尝试就行。正则表达式不同的语言标准是不一样的。
貌似不支持带空格的 class ?
空格是不需要转义的,去掉\再试试?
这样, 报异常 :
org.htmlcleaner.XPatherException: Error in evaluating XPath expression!
空格是不需要转义的,去掉\再试试?