如何在java中查找文档中短语(多个标记字符串)的频率?
我想查找文档中多标记字符串或短语的频率。这不是我正在寻找的单词/单个术语的频率,它总是多个术语,并且术语的数量是动态的......
例如:在文档中搜索“与朋友的单词”的频率!
任何帮助/指示将不胜感激。
谢谢 德布贾尼
I want to find the frequency of a multiple-token-string or phrase inside a document. Its not the word/single-term frequency that I am looking for, its always will be multiple-term and the number of terms are dynamic ...
ex : searching the frequency of "words with friends" inside a document!
Any help/pointer will be much appreciated.
Thanks
Debjani
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您可以使用 Buffered Reader 逐行读取文档,然后使用 split 函数获取单词/标记
编辑的频率:
如果你想执行不区分大小写的搜索,那么你可以使用
You can read the document line by line using Buffered Reader, and then use split function to get the frequency of word/token
EDIT:
And if you want to perform case-insensitive search, then you can use
为什么不使用正则表达式?正则表达式针对此类任务进行了优化。
http://download.oracle.com /javase/1.5.0/docs/api/java/util/regex/Matcher.html
Why not use regex? Regex is optimized for this sort of task.
http://download.oracle.com/javase/1.5.0/docs/api/java/util/regex/Matcher.html