文章 0 浏览 6
我在带有多个标题的 text 列中拥有药物 (df) 及其相关信息(其中两个作为示例提供)。我需要分割文本并将相应的文本放在单独的列中(如 required 数据…
我制作了一个数据挖掘软件,可以发现网络应用程序或其他应用程序的入侵。 该软件的工作原理是检查网站的访问日志并查找异常值和不代表通常行为的模式…
我有两个不同的文件,每个文件的内容都来自不同的数据流。我在两个不同的文件中从这些流中收集了一些数据。然后我想搜索文件以找到任何类型的模式,这…
我正在用java开发一个应用程序,它可以从不同的网页获取文本信息并将其汇总到一个页面中。例如,假设我在不同的网页上有一条新闻,如印度教、印度时报…
这不是一个代码问题,而是一个概念问题。我想知道谁是信息提取、自然语言处理和文本挖掘的主要作者/研究人员,可以阅读他的论文/书籍/作品。…
我已经经历过 jama 和 colt(我用 java 编写代码)。他们都希望我使用数组,使得行数大于列数。 但是对于潜在语义分析(LSA),我有 5 本书,总共有 1…
我必须找到参考文档与存储库中的文档集之间的相似性。 Method : 1. I find the term document matrix for all the documents including the reference…
我已经看到这个问题在其他语言中得到了回答,但在 R 中却没有。 [专门用于 R 文本挖掘]我有一组从语料库中获得的常用短语。现在我想搜索这些短语在另…
我有一个包含大量文本数据的lucene索引,每个项目都有一个描述,我想从描述中提取更常见的单词并生成标签以根据描述对每个项目进行分类,是否有一个lu…
我正在尝试找到一个代码,该代码实际上可以在 R 文本挖掘包中查找最常用的两个和三个单词短语(也许还有另一个我不知道的包)。我一直在尝试使用标记…
我想知道什么可以用来确定页面与游戏、电影等主题的相关性。 这方面是否有一些研究,或者是否只计算某些相关单词出现的次数?…
我有一个填充以下格式字符串的向量: 向量的第一个条目如下所示: 199719982001 199719982002 199719982003 199719982003 对于第一个条目,我们有:ye…
我试图找出国会演讲中最常用的单词,并必须由国会议员将它们分开。我刚刚开始学习 R 和 tm 包。我有一个代码可以找到最常见的单词,但是我可以使用什…
这不是我的领域,所以如果这不在本堆栈的范围内,我深表歉意。 我正在清理(用于个人娱乐并进行可视化以与他人分享)调查数据(下载,9MB),在向公众…
我有一组 java 文本文档。我必须使用计算机识别最重要的文档(就像专家识别的那样)。 例如。我有 10 本关于 java 的书,系统将 Java 完整参考文档识…
文章 0 评论 0
接受