通过java获取网页
我需要获取给定的网页,然后将 HTML 标签转换为 XML 标签,并根据这些 XML 标签构建一棵树。我该怎么做?请给我一些基于这些的好的链接或教程,顺便说一句,我正在使用 java 语言。
谢谢。
I need to fetch a given web page, and then convert the HTML tag to XML tag, and from these XML tag i need to build a tree. how can i do that ?? please show me some good link or tutorial based on these, btw i am using the java language.
Thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
HttpClient 获取数据。
HtmlCleaner 将其转换为 XML。
两者都有教程。
HttpClient to get the data.
HtmlCleaner to turn it into XML.
Both have tutorials.
看看 Apache http://hc.apache.org/httpcomponents-client-ga/< /a> 和 http://htmlcleaner.sourceforge.net/
Take a look at Apache http://hc.apache.org/httpcomponents-client-ga/ and http://htmlcleaner.sourceforge.net/