如何在 PHP 中使用正则表达式提取 HTML 内容
我知道,我知道...正则表达式不是提取 HTML 文本的最佳方法。但我需要从很多页面中提取文章文本,我可以将正则表达式存储在每个网站的数据库中。我不…
使用屏幕截图提取数据
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…
关于可读性代码的 jQuery 等效项有什么想法吗? (或者:使用 jQuery 构建最佳启发式查找正文)
http://lab.arc90.com/experiments/readability/ 是一个非常方便的工具以非常易读的方式查看杂乱的报纸、期刊和博客页面。它通过使用一些启发式方法并…
HTML 内容提取的最新技术水平如何?
有很多关于 HTML 内容提取的学术工作,例如 Gupta 和 Gupta。 Kaiser (2005) 从可访问的网页中提取内容 ,以及这里一些有趣的标志,例如 一个、两个,…
寻找 Webzinc .NET、屏幕抓取、.NET Web 自动化库的免费替代品
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
YQL 抓取整个网站/域
我正在尝试从域中恢复一组链接和内容。 谷歌中的查询是 "site:www.newswebsite.com search_term" 我已经看到了一些接近的东西来实现这个工作,但我似…
Beautifulsoup 在表中获得价值
我正在尝试刮 http://www.co.jefferson.co.us/ ats/displaygeneral.do?sch=000104 并获取“所有者姓名” 我所拥有的有效,但真的很难看,而且不是我确…
如何从原始 HTML 文件中提取数据?
有没有一种方法可以从没有 ID 和 classes 的非语义编写的原始 html 中提取所需的数据?我的意思是,假设有一个已保存的网页(个人资料)的 html 文件…