Ruby on Rails safari 阅读器,例如文本提取和样板文件
我有一个类似于 digg 的网络服务,它简要解释了有一个页面解析器,当人们提交故事时,解析器会根据 hpricot 和我编写的其他一些小提取原则返回标题和摘要。
我想将其提升到一个新的水平,并尝试从人们提交给解析器的页面中发现和提取内容。例如我想提取一篇文章的内容。
当然,我并不是真的想从头开始编写自己的样板文件和提取算法。
是否有一个 gem 或其他东西可以挂接到我的 Rails 应用程序上,在某种程度上与我想要实现的目标相关?
我真的很困惑,非常感谢任何帮助。
此致。
I have a digg like web service which briefly explained has a page parser and when people submit stories, the parser returns title and summary based on hpricot and some other small extraction principles I wrote.
I want to take it to the next level and try a content discovery and extraction from the pages people submit to the parser. I want to extract the content of an article for example.
Of course I don't really want to start from scratch and write my own boilerplate and extraction algorithms.
Is there a gem or something I can hook to my rails app that can be relevant to some degree to what I want to achieve?
I'm really stuck on this and any help is appreciated.
Best regards.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
Hpricot 在 ruby 中已被弃用,取而代之的是 nokogiri。
例如,您可以将任何 xpath 表达式与 nokogiri 一起使用
Hpricot is deprecated in ruby in favor of nokogiri.
You can use any xpath expression with nokogiri for example
尝试一下 Readability gem。它的效果非常好:
https://github.com/cantino/ruby-readability
Give the Readability gem a try. It's works very well:
https://github.com/cantino/ruby-readability