提取职位描述LinkedIn
我试图提取职位,公司,位置和描述。
我设法获得了职位标题,公司,位置,因为每个跨度都有其类名称。 我很难获得职位描述,因为他们没有课程。他们的描述的一部分也位于列表中。我尝试使用绝对XPath提取文本,它不起作用。
from io import StringIO
from parsel import Selector
from time import sleep
from selenium.webdriver.edge.service import Service
from selenium import webdriver
driver = webdriver.Edge('C:/Users/users/Downloads/edgedriver_win64/msedgedriver.exe')
#accessing linkedin
driver.get('https://www.linkedin.com')
# login
username = driver.find_element_by_name('session_key')
username.send_keys(parameter.email)
password = driver.find_element_by_name('session_password')
password.send_keys(parameter.password)
submit = driver.find_element_by_class_name('sign-in-form__submit-button')
submit.click()
sleep(2)
driver.get(parameter.siteQuery)
sleep(5)
wait = WebDriverWait(driver, 20)
links = driver.find_elements_by_xpath("//a[@class='disabled ember-view job-card-container__link']")
links =[link.get_attribute("href") for link in links]
sleep(1)
for link in links :
driver.get(links)
sleep(5)
# moreinfo =driver.find_element_by_class_name('artdeco-card__action')
# moreinfo.click()
sel= Selector(text=driver.page_source)
title = sel.xpath('//h1[@class="t-24 t-bold"]/text()').extract()
company = sel.xpath('//span[@class="jobs-unified-top-card__company-name"]/text()').extract()
location = sel.xpath('//span[@class="jobs-unified-top-card__bullet"]/text()').extract()
description = sel.xpath('/html/body/div[6]/div[3]/div/div[1]/div[1]/div/div[2]/article/div/div[1]/span/text()').extract()
我尝试提取直式div也无法使用,
description = sel.xpath('//*[@id="jobs-details"]/span/text()').extract()
我使用parsel.Selector和Selenium
知道如何获取整个描述? 谢谢
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我意识到我可以提取整个HTML元素后,我就会弄清楚。因此,我只需全面跨度,然后
从跨度中清理清洁:
清洁数据:
i figure it out after i realize i can just extract the whole html elements. so i just take the whole span and then clean them later
Extracting from span :
Cleaning the data :