使用 Hadoop 预处理文本消息的最佳方法

发布于 2024-11-18 12:02:15 字数 165 浏览 4 评论 0原文

我正在使用 Hadoop 来处理短信(SMS)。但我不确定预处理这些数据以便我可以进行有效搜索的最佳方法。例如,在预处理数据后,如果有人搜索“NY”,我将能够显示包含单词“NY”的消息。 是否建议将预处理的数据写入 xml 文件而不是数据库。

注意:我的 .csv 文件中有大约 200K 条短信。

I am using Hadoop to process text messages(SMS). but I am not sure of the best way to pre-process these data so that I can do an efficient search. for example, after preprocessing the data if someone searches for 'NY' I will be able to display the messages containing the word 'NY'.
Is it advisable to write the pre-processed data to an xml file and not to a database.

NOTE: I have around 200K text messages in an .csv file.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

烟花肆意 2024-11-25 12:02:15

我将预处理数据导入 hdfs 的方法是首先将数据(在您的情况下为 csv 文件)导入数据库,然后创建一个表视图,根据您的需要对其进行微调。然后我使用 Sqoop 将数据导入到 hdfs 中。有关 sqoop 的更多信息可以在这里找到

http://www.cloudera.com/ blog/2009/06/introducing-sqoop/

要从数据库进行 sqoop 导入,请查看

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html #_connecting_to_a_database_server

The way I import preprocessed data to hdfs is to first import the data (csv file in your case) into a database and then create a table view that fine-tunes it to your needs. Then I import the data into hdfs using Sqoop. More Information on sqoop can be found here

http://www.cloudera.com/blog/2009/06/introducing-sqoop/

for doing a sqoop import from a database take a look at

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server

我的痛♀有谁懂 2024-11-25 12:02:15

您可能想要对文本消息建立索引,可能使用 Lucene 之类的东西。

You probably want to index the text messages, maybe using something like Lucene.

风吹过旳痕迹 2024-11-25 12:02:15

去寻找
Solr(特别用于文本挖掘)

  1. 强大的全文搜索

  2. 提供动态集群

  3. 同时提供数据库集成

  4. 支持.csv、.xml、word、pdf..

  5. 高度可扩展

Go for
Solr (Especially used for text mining)

  1. Powerful full-text search

  2. Provides dynamic clustering

  3. Provides database integration as well

  4. Supports .csv,.xml,word,pdf..

  5. Highly scalable

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文