当前位置：文江博客话题详情

如何“拉动”来自 html 文件的特定数据并处理数据

发布于 2024-10-31 11:18:00 字数 330 浏览 0 评论 0原文

我是编程新手，我有一个问题，如何从网站页面中提取特定信息，处理数据以检查并查看其是否满足某些参数，以及存储满足参数的页面的 url。

问题是这样的：

- 有一个网站有几篇文章。 -我希望能够列出网站上包含少于 x 个单词的文章的 URL 列表。

我不需要编码或任何方面的帮助，因为我对此很陌生，这本质上是我学习编程的自我练习。

我只是想知道如何解决这个问题。我了解 HTML 和最少的 Ruby，这就是我的知识范围。

我只是不知道如何从网页“提取”数据。 :S 我将使用什么来提取 HTML？提取 HTML 后我该如何处理它？将其转换为红宝石？如果是这样，怎么办？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

宣告ˉ结束 2024-11-07 11:18:00

首先：

require 'open-uri'
require 'nokogiri' 
doc = Nokogiri::HTML(open(URL))
doc.xpath(//a).each {|node| p a.text}

Nokogiri 是一个用 Ruby 解析 HTML/XML 文档的库。请查看网页以获取有关如何安装/使用它的更多信息。

Start with:

require 'open-uri'
require 'nokogiri' 
doc = Nokogiri::HTML(open(URL))
doc.xpath(//a).each {|node| p a.text}

Nokogiri is a library to parse HTML/XML documents in Ruby. Have a look on the webpage for more information on how to install/use it.

回复收藏 0 原文

~没有更多了~

关于作者

淡莣

暂无简介

0 文章

0 评论

22 人气

关注发私信

烙印

文章 0 评论 0

关注

singlesman

文章 0 评论 0

关注

给自己一个微笑

文章 0 评论 0

关注

独孤求败

文章 0 评论 0

关注

晨钟暮鼓

文章 0 评论 0

关注

我是自愿种绣球花的

文章 0 评论 0

友情链接

文江博客

如何“拉动”来自 html 文件的特定数据并处理数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者