text-mining

text-mining

文章 0 浏览 4

R 文本挖掘包 DocumentTermMatrix 在控制列表中带有字典,占用太多内存

Closed. This question needs details or clarity. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章添加详细信息并澄清…

‖放下 2024-11-19 08:50:04 2 0

挖掘维基百科用于文本挖掘的映射关系

我计划开发一个基于网络的应用程序,它可以抓取维基百科以查找关系并将其存储在数据库中。通过关系,我的意思是搜索一个名字,比如“比尔盖茨”,找到…

往昔成烟 2024-11-10 13:05:19 4 0

Lib Linear 如何使用它

总的来说,我对机器学习和文本挖掘相当陌生。我注意到一个名为 Lib Linear 的 ruby​​ 库的存在 https://github.com/tomz /liblinear-ruby-swig。 到…

戈亓 2024-11-09 08:56:00 4 0

如何从 R 访问维基百科?

R 是否有任何包允许查询维基百科(最有可能使用 Mediawiki API)来获取与此类查询相关的可用文章列表,以及导入选定的文章以进行文本挖掘?…

情仇皆在手 2024-11-09 07:38:47 9 0

用于文本处理的Python或Java(文本挖掘、信息检索、自然语言处理)

Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…

岁月静好 2024-11-08 02:43:21 4 0

在 Ubuntu Lucid 上安装 R 文本挖掘包

R 新手,正在尝试安装文本挖掘包 (tm)。然而当我这样做时 安装.packages(“tm”,依赖项= TRUE) 我收到以下错误: Warning in install.packages("tm…

诗笺 2024-11-07 21:34:32 4 0

数据挖掘中映射数据的算法

我需要抓取一些网页并从中提取内容。我计划选择一些特定的关键字并映射与它们有某种关系的数据。但我不知道如何才能做到这一点。谁能建议我一些算法来…

吹泡泡o 2024-11-07 09:15:55 4 0

主题相关爬虫的字典是如何定义的?

我想知道定义字典来计算特定网站的相关性的最佳方法是什么。至少带有单词的词典似乎是衡量通过链接找到的新网站的相关性的重要方法(例如,如果链接到…

油饼 2024-11-05 18:31:52 3 0

使用示例生成语法的工具?

这个答案展示了一个使用解析器生成器的漂亮示例浏览文本寻找一些感兴趣的模式。在该示例中,它是产品价格。 有谁知道根据训练示例生成语法的工具(我…

深白境迁sunset 2024-10-27 22:36:36 5 0

记录实施朴素贝叶斯进行文本分类的可能性

我正在实施朴素贝叶斯算法进行文本分类。我有大约 1000 个用于培训的文档和 400 个用于测试的文档。我认为我已经正确实施了培训部分,但我在测试部分…

淡看悲欢离合 2024-10-27 18:29:39 7 0

开始文档分类时寻求书籍和文章参考

我对做一个关于文档分类的项目感兴趣,并且一直在寻找对与此相关的文本挖掘的理论部分有用的书籍,或者描述从带有分类文档(带有子类别)的训练数据到…

野稚 2024-10-21 04:13:14 8 0

将数据转化为信息:从哪里开始?

我们(我的公司)运行一个网站,其中记录了大量数据,例如用户注册、访问、点击、他们发布的内容等,但到目前为止,我们还没有一个工具来了解如何监控…

嘴硬脾气大 2024-10-20 03:30:15 5 0

用于减少大型日志文件的工具

我使用巨大的日志文件 - 1GB 左右,其中有许多用户会话,而我只关心一个会话。 我通常可以通过搜索会话 ID(需要 2 分钟以上)来缩小涵盖我感兴趣的会…

二手情话 2024-10-16 14:19:09 6 0

如何解决“缺少manifest.properties”问题在 OpenNLP 中?

我正在尝试使用 OpenNLP 进行标记化。我不知道出了什么问题。以下是例外情况: opennlp.tools.util.InvalidFormatException: Missing the manifest.pr…

懷念過去 2024-10-15 12:03:30 7 0

文本挖掘 Outlook 电子邮件存档

我正在考虑对一组包含超过 4 年通信时间的大型单独 .pst 文件进行一些文本挖掘。 最初,我只想提取标头信息来识别社交网络,但最终希望开始根据关键字…

╰つ倒转 2024-10-15 06:20:54 6 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文