将论坛讨论编译成分类文章或信息的算法/方法?
我正在用 Java 为网络设计和编码一个基于知识的社区共享系统(论坛、问答、学生、教授和专家之间的文章共享)。
我需要使用一些数据挖掘/文本处理技术/算法来分析专家和学生之间的讨论(使用标签对讨论进行分类),并就特定的相似主题创建适当的笔记和汇编。
我不是此类可用算法或工具的专家。如果有人能为我提供一些指示或解释我如何处理这个问题,那就太好了。
谢谢!!
I'm designing and coding a knowledge based community sharing system (forum, Q&A, article sharing between students, professors and experts) in Java, for the web.
I need to use some data mining/text processing techniques/algorithms to analyse the discussions between experts and students (discussions are categorized using tags) and create proper notes and compilations on specific similar topics.
I'm not an expert regarding such algorithms or tools available. It'd be great if anyone can provide me with some pointers or explain how I can proceed with this problem.
Thanks!!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
对于文章分类,您可以使用 LSA(潜在语义分析)技术。
您可以检查这些文本处理工具。
LingPipe:用于处理文本的工具包。
Lucene:文本挖掘
Solr :强大的文本搜索工具
For categorization of articles you can use LSA (Latent Semantic Analysis) technique .
You can check these tools for text processing.
LingPipe : Tool kit for processing text.
Lucene : Text mining
Solr : Powerful text search tool
开始阅读文本挖掘。您的问题没有通用答案,因为它不够精确。你必须更加明确你的目标,然后人们才能提出实现这些目标的方法。你的“分析”太宽泛了。数字数也是“分析”!
那么:你想识别、分组或预测什么?
Start reading up on Text Mining. There is no general answer to your question because it is not precise enough. You must be more precise about your aims, then people can suggest methods for these. Your "analyze" is way too broad. Counting the number of words is "analyzing", too!
So: what do you want to recognize, group or predict?