如何从< p>刮擦Wikipedia文本没有ID或课程?
我正在抓取Wikipedia文本,但是< p>
没有任何类或ID:
import requests as r
from bs4 import BeautifulSoup as bs
url=r.get("https://en.wikipedia.org/wiki/Wikipedia#Nupedia")
soup=bs(url.text,'html.parser')
print(soup)
product=soup.find('div',class_="mw-parser-output")
head=product.find('span',id="Nupedia").text
para=product.find_all('p',class_=False)
print(para)
它不起作用
I am scraping a Wikipedia text but the <p>
does not have any class or id:
import requests as r
from bs4 import BeautifulSoup as bs
url=r.get("https://en.wikipedia.org/wiki/Wikipedia#Nupedia")
soup=bs(url.text,'html.parser')
print(soup)
product=soup.find('div',class_="mw-parser-output")
head=product.find('span',id="Nupedia").text
para=product.find_all('p',class_=False)
print(para)
It's not working
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
问题不是很清楚 - 仅获取下一个
&lt; p&gt;
您可以接受:如果您想提取头条新闻及其相应的
&lt; p&gt;
s可以使用类似的东西:Question is not quiet clear - To get only the next
<p>
you could go with:If you like to extract the headlines and its corresponding
<p>
s you can go with something like that:要从p标签获取文本,您可以使用
.find_next_sibling('p')
output:
To get text from p tag, you can use
.find_next_sibling('p')
Output: