我需要从网站上刮去电子邮件,但是没有类似的班级名称或SMTH
我有以下问题报废网站。我有一个带人电子邮件的3700页,我需要实现它们。问题在于它们不包含任何类名称,而对于不同页面的XPath可能会有所不同,有时在电子邮件前有电话号码会破坏所有内容。我尝试使用硒的不同解决方案,但这行不起作用。您能给我一些有关如何处理此问题以及如何刮擦它们的建议。以下是一些页面的一些示例,其中显示了不同的HTML结构。谢谢!
<div>
<div><i class="fa fa-envelope" style="margin-right: 0.5rem;"></i><span style="unicode-bidi: bidi-override; direction: rtl;"> moc.ttobbanaej@naej</span></div>
<div><a href="http://JeanAbbott.com" target="_blank" class="websiteLink" rel="noopener noreferrer" style="overflow-wrap: normal; text-overflow: ellipsis; overflow: hidden;">JeanAbbott.com</a></div>
<div id="contactInfoWrap" style="margin-top: 10px;">
<div>Jean Abbott</div>
<div>
<div>5 Colonial Circle</div>
<div>Medicine Lake, MN 55441</div>
<div>US</div>
</div>
</div>
</div>
另一个是
<div>
<div><i class="fa fa-phone" style="margin-right: 0.5rem;"></i>202-800-7057</div>
<div><i class="fa fa-envelope" style="margin-right: 0.5rem;"></i><span style="unicode-bidi: bidi-override; direction: rtl;"> moc.tsiugnilde@ahsynal</span></div>
<div><a href="http://edlinguist.com/" target="_blank" class="websiteLink" rel="noopener noreferrer" style="overflow-wrap: normal; text-overflow: ellipsis; overflow: hidden;">edlinguist.com/</a></div>
<div id="contactInfoWrap" style="margin-top: 10px;">
<div>LaNysha Adams</div>
<div>
<div>80 M St SE</div>
<div>1st Floor</div>
<div>Washington, DC 20003</div>
<div>US</div>
</div>
</div>
</div>
我需要的元素
<span style="unicode-bidi: bidi-override; direction: rtl;"> moc.ttobbanaej@naej</span>
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
上面的Xpath表达式将选择您所需的html部分:
所需的文本节点值是:
moc.tsiugnilde@ahsynal
The above xpath expression will select your desired html portion:
and the desired text node value is :
moc.tsiugnilde@ahsynal
似乎镜像了电子邮件地址。并解决有样式信息:
unicode-bidi:bidi-override;方向:rtl;
意味着moc.tsiugnilde@ahsynal
是[email&nbsp; procepted]
。因此,最好只使用此XPath:
It seems like the email-addresses are mirrored. And to address that there is style info:
unicode-bidi: bidi-override; direction: rtl;
meaning thatmoc.tsiugnilde@ahsynal
is[email protected]
.And so it is maybe better to just use this XPath: