当前位置：文江博客话题详情

Java information-retrieval tf-idf feature-extraction

创建数据集：从文本文档中提取特征（TF-IDF）

发布于 2024-09-03 08:24:04 字数 212 浏览 19 评论 0原文

我必须从一些文本文件创建一个数据集，将它们写为特征向量。

像这样：

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

向量的每个位置代表一个单词，分数由 TF-IDF 之类的东西给出。

你知道一些库/工具/相关的东西吗？（java更好）

I've to create a dataset from some text files, writing them as vectors of features.

Something like this:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

each position of the vector represent a word, and the score is given by something like TF-IDF.

Do you know some library/tool/whatever for this? (java is better)

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

动次打次papapa 2024-09-10 08:24:04

几天后，我找到了“完美的工具”：Word Vector Tool。
http://sourceforge.net/projects/wvtool/

回复收藏 0 原文

追我者格杀勿论 2024-09-10 08:24:04

木槌。包括TF-IDF、POS、分类。

回复收藏 0 原文

咽泪装欢 2024-09-10 08:24:04

当然有很多，例如 http://en.wikipedia.org/wiki/Lucene

但是

我建议您从头开始编写一个基本的 IR 系统。深入了解底层始终是一次很好的学习经历。

回复收藏 0 原文

~没有更多了~

关于作者

剧终人散尽

暂无简介

文章

评论

28 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文