Ruby on Rails safari 阅读器,例如文本提取和样板文件

发布于 2024-12-09 10:20:17 字数 303 浏览 0 评论 0原文

我有一个类似于 digg 的网络服务,它简要解释了有一个页面解析器,当人们提交故事时,解析器会根据 hpricot 和我编写的其他一些小提取原则返回标题和摘要。

我想将其提升到一个新的水平,并尝试从人们提交给解析器的页面中发现和提取内容。例如我想提取一篇文章的内容。

当然,我并不是真的想从头开始编写自己的样板文件和提取算法。

是否有一个 gem 或其他东西可以挂接到我的 Rails 应用程序上,在某种程度上与我想要实现的目标相关?

我真的很困惑,非常感谢任何帮助。

此致。

I have a digg like web service which briefly explained has a page parser and when people submit stories, the parser returns title and summary based on hpricot and some other small extraction principles I wrote.

I want to take it to the next level and try a content discovery and extraction from the pages people submit to the parser. I want to extract the content of an article for example.

Of course I don't really want to start from scratch and write my own boilerplate and extraction algorithms.

Is there a gem or something I can hook to my rails app that can be relevant to some degree to what I want to achieve?

I'm really stuck on this and any help is appreciated.

Best regards.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

落日海湾 2024-12-16 10:20:17

Hpricot 在 ruby​​ 中已被弃用,取而代之的是 nokogiri。
例如,您可以将任何 xpath 表达式与 nokogiri 一起使用

require 'rubygems'
require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('http://www.google.com/').read)
puts doc.xpath('//title')[0].text

Hpricot is deprecated in ruby in favor of nokogiri.
You can use any xpath expression with nokogiri for example

require 'rubygems'
require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('http://www.google.com/').read)
puts doc.xpath('//title')[0].text
北陌 2024-12-16 10:20:17

尝试一下 Readability gem。它的效果非常好:

https://github.com/cantino/ruby-readability

require 'rubygems'
require 'readability'
require 'open-uri'

source = open('http://lab.arc90.com/experiments/readability/').read
puts Readability::Document.new(source).content

Give the Readability gem a try. It's works very well:

https://github.com/cantino/ruby-readability

require 'rubygems'
require 'readability'
require 'open-uri'

source = open('http://lab.arc90.com/experiments/readability/').read
puts Readability::Document.new(source).content
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文