用硒写入文档时列出索引范围之外的范围

发布于 2025-01-18 09:25:51 字数 2867 浏览 5 评论 0原文

我正在尝试将大学名称、部门名称和评级写入 https 的文件://www.whatuni.com/university-course-reviews/?pageno=14。一切进展顺利，直到我到达一个没有部门名称的帖子，它给了我错误

file.write(user_name[k].text + ";" + uni_names[k].text + ";" + department[k].text + ";" + date_posted[k].text +
IndexError: list index out of range

这是我使用的代码。我相信当部门不存在时我需要以某种方式写入 null 或使用空间。我使用 if not 和 else 但它对我不起作用。我将不胜感激任何帮助。谢谢

for i in range(20):
try:
    driver.refresh()
    uni_names = driver.find_elements_by_xpath('//div[@class="rlst_wrap"]/h2/a')
    department_names = driver.find_elements_by_xpath('//div[@class="rlst_wrap"]/h3/a')
    user_name = driver.find_elements_by_xpath('//div[@class="rev_name"]')
    date_posted = driver.find_elements_by_xpath('//div[@class="rev_dte"]')
    uni_rev = driver.find_elements_by_xpath('(//div[@class="reviw_rating"]/div[@class="rate_new"]/p)')
    uni_rating = driver.find_elements_by_xpath('(//div[@class="reviw_rating"]/div[@class="rate_new"]/span[starts-with(@class,"ml5")])')
    job_prospects = driver.find_elements_by_xpath('//span[text()="Job Prospects"]/following-sibling::span')
    course_and_lecturers = driver.find_elements_by_xpath('//span[text()="Course and Lecturers"]/following-sibling::span')
    if not course_and_lecturers:
        lecturers= "None"
    else:
        lecturers = course_and_lecturers

    uni_facilities = driver.find_elements_by_xpath('//span[text()= "Facilities" or "Uni Facilities"]/following-sibling::span')
    if not uni_facilities:
        facilities = "None"
    else:
        facilities = uni_facilities

    student_support = driver.find_elements_by_xpath('//span[text()="Student Support"]/following-sibling::span')
    if not student_support:
        support = "None"
    else:
        support = student_support

    with open('uni_scraping.csv', 'a') as file:
            for k in range(len(uni_names)):
                if not department_names:
                    department = "None"
                else:
                    department = department_names
                    file.write(user_name[k].text + ";" + uni_names[k].text + ";" + department[k].text + ";" + date_posted[k].text +
                               ";" + uni_rating[k].get_attribute("class") + ";" + job_prospects[k].get_attribute("class") +
                               ";" + lecturers[k].get_attribute("class") + ";" + facilities[k].get_attribute("class") +
                               ";" + support[k].get_attribute("class") + ";" + uni_rev[k].text + "\n")
            next_page = driver.find_element_by_class_name('mr0')
            next_page.click()
            file.close()
except exceptions.StaleElementReferenceException as e:
    print('e')
    pass
driver.close()

原文

I am trying to write uni names, department names and ratings to a file from https://www.whatuni.com/university-course-reviews/?pageno=14. It goes well until I reach a post without a department name it gives me the error

file.write(user_name[k].text + ";" + uni_names[k].text + ";" + department[k].text + ";" + date_posted[k].text +
IndexError: list index out of range

Here is the code I use. I believe I need to somehow write null or use space when the department doesn't exist. I use if not and else but it didn't work for me. I would appreciate any help. Thank you

for i in range(20):
try:
    driver.refresh()
    uni_names = driver.find_elements_by_xpath('//div[@class="rlst_wrap"]/h2/a')
    department_names = driver.find_elements_by_xpath('//div[@class="rlst_wrap"]/h3/a')
    user_name = driver.find_elements_by_xpath('//div[@class="rev_name"]')
    date_posted = driver.find_elements_by_xpath('//div[@class="rev_dte"]')
    uni_rev = driver.find_elements_by_xpath('(//div[@class="reviw_rating"]/div[@class="rate_new"]/p)')
    uni_rating = driver.find_elements_by_xpath('(//div[@class="reviw_rating"]/div[@class="rate_new"]/span[starts-with(@class,"ml5")])')
    job_prospects = driver.find_elements_by_xpath('//span[text()="Job Prospects"]/following-sibling::span')
    course_and_lecturers = driver.find_elements_by_xpath('//span[text()="Course and Lecturers"]/following-sibling::span')
    if not course_and_lecturers:
        lecturers= "None"
    else:
        lecturers = course_and_lecturers

    uni_facilities = driver.find_elements_by_xpath('//span[text()= "Facilities" or "Uni Facilities"]/following-sibling::span')
    if not uni_facilities:
        facilities = "None"
    else:
        facilities = uni_facilities

    student_support = driver.find_elements_by_xpath('//span[text()="Student Support"]/following-sibling::span')
    if not student_support:
        support = "None"
    else:
        support = student_support

    with open('uni_scraping.csv', 'a') as file:
            for k in range(len(uni_names)):
                if not department_names:
                    department = "None"
                else:
                    department = department_names
                    file.write(user_name[k].text + ";" + uni_names[k].text + ";" + department[k].text + ";" + date_posted[k].text +
                               ";" + uni_rating[k].get_attribute("class") + ";" + job_prospects[k].get_attribute("class") +
                               ";" + lecturers[k].get_attribute("class") + ";" + facilities[k].get_attribute("class") +
                               ";" + support[k].get_attribute("class") + ";" + uni_rev[k].text + "\n")
            next_page = driver.find_element_by_class_name('mr0')
            next_page.click()
            file.close()
except exceptions.StaleElementReferenceException as e:
    print('e')
    pass
driver.close()

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鸵鸟症 2025-01-25 09:25:51

谢谢维米森的回答。我按照你的建议做了，它对我有用。我写了这样的东西。

driver = webdriver.Chrome()
driver.get("https://www.whatuni.com/university-course-reviews/?pageno=14")

posts = []

driver.refresh()
post_elements = driver.find_elements_by_xpath('//div[@class="rlst_row"]')
for post_element_index in range(len(post_elements)):
    post_element = post_elements[post_element_index]
    uni_name = post_element.find_element_by_tag_name('h2')
    try:
        department_name = post_element.find_element_by_tag_name('h3')
        department = department_name
        department = department.text
    except NoSuchElementException:
        department = "aaaaaaaa"
    user_name = post_element.find_element_by_class_name('rev_name')
    postdict = {
        "uni_name": uni_name.text,
        "department": department,
        "user_name": user_name.text
    }
    posts.append(postdict)


print(posts)
driver.close()

最好的

Thank you Vimizen for the answer. I did what you suggested and it worked for me. I wrote something like this.

driver = webdriver.Chrome()
driver.get("https://www.whatuni.com/university-course-reviews/?pageno=14")

posts = []

driver.refresh()
post_elements = driver.find_elements_by_xpath('//div[@class="rlst_row"]')
for post_element_index in range(len(post_elements)):
    post_element = post_elements[post_element_index]
    uni_name = post_element.find_element_by_tag_name('h2')
    try:
        department_name = post_element.find_element_by_tag_name('h3')
        department = department_name
        department = department.text
    except NoSuchElementException:
        department = "aaaaaaaa"
    user_name = post_element.find_element_by_class_name('rev_name')
    postdict = {
        "uni_name": uni_name.text,
        "department": department,
        "user_name": user_name.text
    }
    posts.append(postdict)


print(posts)
driver.close()

Best

回复收藏 0 原文