Jsoup 根据条件选择
我有以下 html 表元素: header1 data1 header2 subheader1subdata1 subheader2subdata2 header3 data3 .... 如何选择表中的标题,其中这些标题的下一…
由于 ParserError 对象过多,Jsoup 正在保持完整 GC?
Jsoup是一个非常方便的解析html的工具,在我们的爬虫项目中用作基本util。但最近我发现我们的爬虫有时总是在做full GC。 通过jmap转储对象后,我惊讶…
Elements 类可以解决这个问题
我想从网站获取html内容 我使用jsoup(java开源)来crwal一个网站并使用此代码获取元素: Document doc = Jsoup.connect("http://bj.58.com/shangdi/z…
使用 Jsoup 保留行
我正在使用 Jsoup 从 html 获取一些数据,我有这样的代码: System.out.println("nie jest"); StringBuffer url=new StringBuffer("http://www.darkly…
使用 JSoup 获取隐藏在 HTML 代码中的 URL
我有一段网页(库的东西)的 HTML 代码,例如: Amazon.com Product Description (ISBN 0860783227, Hardcover) 我想从 href 属性获取绝对 URL。我尝…
使用 JSoup 提取 HTML 表格内容
如何提取位于以下位置的表的内容: /id/2/year/2012/acc-conference">http://espn.go.com/mens-college-basketball/conferences/stands//id/2/year/20…
Jsoup 解析 RSS 时出现错误?
我正在尝试从此提要获取文章链接列表: http://rss.cbc .ca/lineup/topstories.xml 但是,当 Jsoup 读入它时,标签中的链接http://www.cbc.ca/news/?c…
如何查找特定的元标记
我正在尝试使用 java 中的 Jsoup 解析器检索元标记(标记名称=生成器)。 我的代码如下: Elements metalinks=doc.select("meta"); // meta boolean m…
如何在 Jsoup 中编写 & 字符
我正在使用 Jsoup 来解析和修改一些 HTML。在某些地方,我想向 HTML 添加不间断空格实体 ( )。我以为我可以像这个简化的例子一样做到这一点: El…
使用Java获取CSS文件中图像的URL?
我正在尝试使用 Java 获取远程 CSS 文件中图像(所有 MIME 类型)的 URL。 我正在使用 jsoup 来获取 css 的 URL。 经过无数个小时的研究 CSS Parser …
在Eclipse中使用Jsoup时出错
我从 jsoup.org/download 下载了 .jar Jsoup 文件。然后我运行 eclipse 并将 .jar 文件导入到 java 项目中。 时,我不断收到错误消息 但是,当我输入i…