在java中提取页面的主要部分
你好 我在维基百科中有一个个性页面,我想用java源代码从主要部分提取HTML代码。
你有什么想法吗?
Hello
I have a page of a personality in wikipedia and I want to extract with java source a code HTML from the main part is that.
Do you have any ideas?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
使用 Jsoup,特别是选择器语法。
它是一个非常有用的 API,用于解析 HTML 页面并提取所需的数据。
Use Jsoup, specifically the selector syntax.
It's a very useful API for parsing HTML pages and extracting the desired data.
对于维基百科,有 API: http://www.mediawiki.org/wiki/API:Main_page
For wikipedia there is API: http://www.mediawiki.org/wiki/API:Main_page
请注意,这会返回 HTML 源代码的 STRING(某种 blob),而不是格式良好的内容项。
我自己用这个——我有一个小片段可以满足我的需要。传入 url、任何开始和停止文本或布尔值以获取所有内容。
Note that this returns a STRING (blob of a sort) of the HTML source code, not a nicely formatted content item.
I use this myself - a little snippet I have for whatever i need. Pass in the url, any start and stop text, or the boolean to get everything.