text-mining

text-mining

文章 0 浏览 4

Lucene 中字级注释层的索引和搜索

我有一个数据集,在底层文本上有多层注释,例如 part-of-标签,来自浅层解析器的块,名称实体,以及来自各种 自然语言处理 (NLP) 工具。对于像 The ma…

剑心龙吟 2024-09-02 06:10:18 4 0

如何识别给定文本中的想法和概念

我目前正在开发一个项目,如果能够检测文本正文中何时提到某个主题/想法,这将非常有用。例如,如果文本包含: 如果您告诉我更多有关琼斯先生的信息,…

篱下浅笙歌 2024-09-02 02:18:13 6 0

大型数据库上的文本挖掘(数据挖掘)

我有一个大型简历 (CV) 数据库,以及一个对所有用户技能进行分组的特定表技能。 该表内有一个字段skill_text,它以全文描述技能。 我正在寻找一种算法…

递刀给你 2024-08-28 23:14:42 10 0

从不同的非结构化文本文件中检索信息 - 文本挖掘?

我需要一些帮助来解决这个问题。 我们有大量给定指定域的文档。这些文档来自不同的来源,因此它们的结构也可能非常不同。另一方面,我有一个包含一些…

玻璃人 2024-08-25 20:05:44 7 0

构建 URL 索引,要包含哪些功能?

我正在努力构建 URL 的索引。目标是构建和存储一个数据结构,该数据结构将具有作为域 URL(例如 www.nytimes.com)的键,并且该值将是与该 URL 关联的…

快乐很简单 2024-08-23 08:56:13 11 0

使用 .Net 进行文本挖掘、事实提取、语义分析

我正在寻找任何免费的工具/组件/库,让我能够在 .NET 应用程序中利用文本挖掘、事实提取和语义分析。 GATE 项目是我所需要的,但它是用 Java 编写的。…

樱花落人离去 2024-08-23 07:13:44 10 0

文本挖掘库还是语言库?

我从我拥有的论坛中收集了一堆数据,并且想要进行一些文本挖掘或使用一些语言库来提取有用的信息。 任何语言的文本挖掘、数据挖掘库都可以。 谢谢。…

明月夜 2024-08-18 17:39:35 9 0

什么是“熵和信息增益”?

我正在读这本书(NLTK),它很令人困惑。 熵定义为 : 熵是每个标签的概率之和 乘以同一标签的对数概率 如何在文本挖掘中应用熵和最大熵?有人能给我一…

太阳男子 2024-08-14 05:18:10 9 0

除了 NLTK 之外,Python 最好的信息检索库是什么?

用于分析互联网上的文档!…

醉态萌生 2024-08-10 00:20:00 5 0

使用 Python 文本挖掘 PDF 文件?

python 是否有一个包/库可以让我打开 PDF,并在文本中搜索某些单词?…

朱染 2024-08-09 17:23:53 3 0

用于解析草率/古怪/“几乎结构化”的背景阅读数据?

我正在维护一个程序,需要解析以“几乎结构化”的文本形式存在的数据。即,生成它的各种程序使用稍微不同的格式,它可能已被打印出来并 OCR 回来(是…

凤舞天涯 2024-08-04 03:09:39 5 0

如何确定文档的(自然)语言?

我有一套两种语言的文件:英语和德语。这些文档没有可用的元信息,程序只能查看内容。基于此,程序必须决定文档是用两种语言中的哪一种编写的。 是否…

世界和平 2024-08-03 18:58:22 8 0

自动文档标记相关

我开始从事一个项目,在该项目中我必须用关键字标记文档,如果您手动执行此操作,这确实非常困难且耗时(特别是如果您有数千个文档)。 所以我计划自…

我不咬妳我踢妳 2024-08-01 19:51:37 8 0

JAVA中使用哪个NLP工具包?

我正在开发一个项目,该项目包含一个连接到 NCBI(国家生物技术信息中心)并在那里搜索文章的网站。 问题是我必须对所有结果进行一些文本挖掘。 我使…

西瓜 2024-07-21 03:50:35 11 0

爬行互联网

我想抓取特定的东西。 特别是正在发生的活动,如音乐会、电影、艺术画廊开幕式等,任何人们可能花时间去的事情。 如何实现爬虫? 我听说过 Grub (grub…

甩你一脸翔 2024-07-16 11:08:07 8 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文