使用 Hadoop 预处理文本消息的最佳方法
我正在使用 Hadoop 来处理短信(SMS)。但我不确定预处理这些数据以便我可以进行有效搜索的最佳方法。例如,在预处理数据后,如果有人搜索“NY”,我将能够显示包含单词“NY”的消息。 是否建议将预处理的数据写入 xml 文件而不是数据库。
注意:我的 .csv 文件中有大约 200K 条短信。
I am using Hadoop to process text messages(SMS). but I am not sure of the best way to pre-process these data so that I can do an efficient search. for example, after preprocessing the data if someone searches for 'NY' I will be able to display the messages containing the word 'NY'.
Is it advisable to write the pre-processed data to an xml file and not to a database.
NOTE: I have around 200K text messages in an .csv file.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
我将预处理数据导入 hdfs 的方法是首先将数据(在您的情况下为 csv 文件)导入数据库,然后创建一个表视图,根据您的需要对其进行微调。然后我使用 Sqoop 将数据导入到 hdfs 中。有关 sqoop 的更多信息可以在这里找到
http://www.cloudera.com/ blog/2009/06/introducing-sqoop/
要从数据库进行 sqoop 导入,请查看
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html #_connecting_to_a_database_server
The way I import preprocessed data to hdfs is to first import the data (csv file in your case) into a database and then create a table view that fine-tunes it to your needs. Then I import the data into hdfs using Sqoop. More Information on sqoop can be found here
http://www.cloudera.com/blog/2009/06/introducing-sqoop/
for doing a sqoop import from a database take a look at
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server
您可能想要对文本消息建立索引,可能使用 Lucene 之类的东西。
You probably want to index the text messages, maybe using something like Lucene.
去寻找
Solr(特别用于文本挖掘)
强大的全文搜索
提供动态集群
同时提供数据库集成
支持.csv、.xml、word、pdf..
高度可扩展
Go for
Solr (Especially used for text mining)
Powerful full-text search
Provides dynamic clustering
Provides database integration as well
Supports .csv,.xml,word,pdf..
Highly scalable