创建数据集:从文本文档中提取特征(TF-IDF)

发布于 2024-09-03 08:24:04 字数 212 浏览 7 评论 0原文

我必须从一些文本文件创建一个数据集,将它们写为特征向量。

像这样:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

向量的每个位置代表一个单词,分数由 TF-IDF 之类的东西给出。

你知道一些库/工具/相关的东西吗? (java更好)

I've to create a dataset from some text files, writing them as vectors of features.

Something like this:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

each position of the vector represent a word, and the score is given by something like TF-IDF.

Do you know some library/tool/whatever for this? (java is better)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

动次打次papapa 2024-09-10 08:24:04

几天后,我找到了“完美的工具”:Word Vector Tool。
http://sourceforge.net/projects/wvtool/

After some days i found the "perfect tool" for this: Word Vector Tool.
http://sourceforge.net/projects/wvtool/

追我者格杀勿论 2024-09-10 08:24:04

木槌。包括TF-IDF、POS、分类。

mallet. including TF-IDF, POS, classification.

咽泪装欢 2024-09-10 08:24:04

当然有很多,例如 http://en.wikipedia.org/wiki/Lucene

但是

我建议您从头开始编写一个基本的 IR 系统。深入了解底层始终是一次很好的学习经历。

Sure there are many eg http://en.wikipedia.org/wiki/Lucene

However

I recommend that you write an basic IR system from scratch. Looking under the hood is always a great learning experience.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文