Webscapping -Python -Selenium+美丽

发布于 2025-01-22 19:27:02 字数 636 浏览 0 评论 0 原文

我正在尝试构建一个网络报废者以获取用户配置文件信息,例如名称,位置,经验,技能和语言

我面临的问题是:

​“ https://i.sstatic.net/mjji4.png” rel =“ nofollow noreferrer”>

在每个 li 中,标签包含我要寻找的文本

< img src =“ https://i.sstatic.net/6hyob.png” alt =“在此处输入映像说明”>

当我希望在 acexs> axeppary>经验> 时> “对于每个配置文件,如果我尝试使用不同的标签,例如Div 为我带来了我不需要的其他字段的信息。 另一件事,正如您在图片上看到的那样,它显示了“ div” id =“体验”,但是由于此标签不嵌套任何父级标签,所以我无法使用它来提取数据。

I`m trying to build a web scrapper to get user profile information such as name, location, experience, skills and languages

The problem I'm facing is:

Example profile

enter image description here

inside each li tag contains the text I'm looking for

enter image description here

When I look to get information on Experience the section id changes for each profile, and if I try to use a different tag, for example a div brings me information from other fields that I do not need.
Other thing, as you can see on the picture it shows 'div' id = 'experience', but as this tag do not nest any parent tag I cannot use it to extract the data.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

随梦而飞# 2025-01-29 19:27:02

我建议这样做: soup.findall('div')
要查找所有DIV,然后将输出分开,以便您可以获得所需的ID; D

I would recommend doing: soup.findAll('div')
for finding all div's and then just split the output, so you can get the id that you want ;D

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文