通过 Nokogiri 获取可查看的文本单词
我想用 Nokogiri 打开一个网页,并提取用户在浏览器中访问该页面时看到的所有单词并分析单词频率。 使用 nokogiri 从 html 文档中获取所有可读单词的…
如何使用 mechanize 获取谷歌搜索结果链接并将其存储在数组中
我想使用 mechanize 获取 10 个 google 搜索结果链接 (href),所以我编写了这段代码,但是该代码没有返回正确的 google 搜索结果,我应该写什么? @se…
不能要求“nokogiri”;在 Rails 中(但在 irb 中工作)
我刚刚开始使用 Ruby on Rails,到目前为止它运行良好。我现在正在尝试实现一个 gem,但它不起作用,我希望这只是一个初学者的错误 - 我还没有掌握的…
通过类属性的部分匹配获取所有元素
我正在尝试使用 Nokogiri 显示 URL 的结果。 (本质上是抓取一个 URL)。 我有一些类似于以下内容的 HTML: <p class="mattFacer">Matty</p> …
Nokogiri:如何通过其子标签内容之一获取 xml 类
例如,我有一个 XML 对象: <PARENT> <ROW> <ID>1</ID> <INFO>1234</INFO> </ROW> <ROW> <ID>2</ID> <INF…
使用 Nokogiri 解析内部标签
我无法解析不规则嵌入的 html 标签。有没有办法从节点中删除所有 html 标签并保留所有文本? 我正在使用代码: rows = doc.search('//table[@id="tabl…
捕获标签之间的特定文本
解释在评论里。我把它放在那里是因为被解释为粗体或其他什么,它搞砸了帖子。 # I need to capture text that is # enclosed in tags that are both &…
使用 nokogiri 剥离样式属性
我正在用 nokogiri 清理 html 页面,并且想删除所有样式属性。 我怎样才能实现这个目标? (我没有使用rails,所以我不能使用它的清理方法,我不想使…
为什么使用 Nokogiri 会丢失数据?
在我的 ubuntu 10.04 主机上,我在 Ruby 脚本中使用 Nokogiri。 doc = Nokogiri::HTML(open("http://www.google.com.hk")) 效果很好,我收到了数据。 …
从 SQLite 切换到 MySQL 后,如何解决编码问题?
我最近部署了我的应用程序。对于开发,我使用 SQLite,到目前为止一切正常。我有一个控制器,它使用 Nokogiri 将数据填充到我的数据库中。 问题出在生…
如何使用 Ruby 和 Nokogiri 解析 LI/DL/DD 标签结构?
我正在尝试解析包含有序列表以及 DL/DD 标签的 html。目标是创建一个 xml 结构,逐项列出每个标记的内容并添加一些属性。最终效果是扁平化结构(所需…
如何使用 Nokogiri 和 Ruby 通过嵌套表从 HTML 中抓取值?
我正在尝试从我正在使用 Nokogiri 解析的页面中提取姓名、ID、电话、电子邮件、性别、种族、出生日期、班级、专业、学校和 GPA。 我尝试了一些不同的 …
如何使用 Nokogiri 正确处理不间断空格?
我正在使用 Nokogiri 来解析 HTML 页面,但我在不间断空格方面遇到了奇怪的问题。我尝试了不同的编码、替换空格以及其他一些令人头疼的尝试。 以下是…
如何删除带有 ActiveSupport 的“starts_with”的 HTTP 链接使用野科切?
当我尝试这个时: item.css("a").each do |a| if !a.starts_with? 'http://' a.replace a.content end end 我得到: NoMethodError: undefined method…