jsoup 白名单宽松模式对于所见即所得编辑器来说过于严格
我正在尝试使用 jsoup 来清理从我的客户端中的所见即所得发布的 html(碰巧是tinymce) 宽松模式似乎不够宽松,因为默认情况下它会删除 span 元素和任…
从 Div 标签获取文本
我有一个主 Div 标签,其中包含多个 div 标签,如下所示。子 Div 标签没有与其他子 div 标签区分开的 class/id。现在我想从第二个子 Div 标签中提取文…
为什么 Jsoup 在 Java/Android 中抓取数据的方式不同
我一直在尝试从此 URL http://www.isleworthsyon.hounslow 抓取“学校通知”。 sch.uk/ 我尝试在 Java 中抓取文本,然后使用 String.replaceAll 方法…
Apache Commons Text StringEscapeUtils 与 JSoup 预防 XSS?
我想清理用户输入以帮助防止 XSS 攻击,并且我们不一定关心 HTML 白名单,因为我们的用户不需要发布任何 HTML / CSS。 看看现有的替代方案,哪个会更…
如何使用 jsoup 提取维基百科文章中的特定链接?
我正在做一个 NLP 项目,我需要知道如何提取仅位于此 wikipidia 页面的“简介”部分和“地理”部分中的链接: http://en.wikipedia.org/wiki/Boston …
使用远程数据填充 ListFragment
我有一个 ListFragment,当前填充有静态数据,在编译时修复。我实际上希望从网络上截取列表的数据。 我计划使用 jsoup 进行检索和解析等。但是将 jsou…
jsoup - 从维基百科文章中提取文本
我正在编写一些 Java 代码,以便使用维基百科的文本实现 NLP 任务。如何使用 JSoup 提取维基百科文章的所有文本(例如 http:// 中的所有文本en.wikipe…
在 Android 上显示 Jsoup 元素的更快方法
有没有更快的方法将 Jsoup 元素显示到 Android 应用程序上? 我正在开发的应用程序使用 jsoup 下载并解析页面,获取我想要显示的页面的一部分,编辑其…
Android JSOUP 解析网站中的表
我在解析以下网站时遇到问题: http://www.x -rates.com/d/USD/table.html 我对 Android 编程非常非常陌生,我正在考虑创建一个货币转换器,现在我知…
无法返回 href (jSoup) 中的文本
这是我用来从下面的 html 片段访问“test”的代码片段。如何从 html 中访问网址 https://www.google.com ? Elements e = doc.getElementsByAttribute…
jSoup 检查跨度类是否存在
我有一个具有以下格式的 HTML Micky Mouse $88.00 $49.90 在上面的代码中,文章内的标签有一个没有标签的 span class="mick vtEnabled" 。…
如何使用 jsoup 替换标签
我想用 div 标签替换所有图像标签。我可以选择所有标签,并且我知道我必须使用 replaceWith。但我无法使用它。 如果我使用 TextNode 将其替换为 ; 并…
Jsoup 删除引号和撇号
我的代码中有类似的东西 Whitelist whitelist = new Whitelist(); whitelist.addTags("p", "i", "b", "em", "strong", "u"); String content = Jsoup.…