从网页中剥离 HTML 并计算词频？

发布于 2024-07-07 00:15:39 字数 118 浏览 14 评论 0原文

在 Groovy 中，如何抓取网页并删除 HTML 标签等，只留下文档的文本？我希望将结果转储到一个集合中，以便我可以构建一个词频计数器。

最后，让我再次提及，我想在 Groovy 中执行此操作。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暖风昔人 2024-07-14 00:15:41

您可以使用 Lynx Web 浏览器吐出文档文本并保存。

您想自动执行此操作吗？您想要一个单独的应用程序来执行此操作吗？或者您需要帮助将其编码到您的应用程序中吗？它将在哪些平台（Windows 桌面、Web 服务器等）上运行？

回复收藏 0 原文

乜一 2024-07-14 00:15:41

如果您想要 HTML 中的标记化单词集合，那么您不能像 XML 一样解析它（需要是有效的 XML）并获取标记之间的所有文本吗？像这样的事情怎么样：

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

If you want a collection of tokenized words from HTML then can't you just parse it like XML (needs to be valid XML) and grab all of the text between tags? How about something like this:

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

回复收藏 0 原文

初与友歌 2024-07-14 00:15:40

假设您想使用 Groovy 来完成此操作（根据 groovy 标签进行猜测），您的方法可能会严重面向 shell 脚本或使用 Java 库。就 shell 脚本而言，我同意 moogs 的观点，使用 Lynx 或 Elinks 可能是最简单的方法。否则请查看 HTMLParser 并查看处理文件中的每个单词（向下滚动以查找相关代码片段）

您可能一直在寻找与 Groovy 一起使用的 Java 库来进行 HTML 解析，因为它似乎没有任何 Groovy 库。如果您没有使用 Groovy，请发布所需的语言，因为有大量 HTML 到文本工具就在那里，具体取决于您使用的语言。

回复收藏 0 原文

~没有更多了~