如何在java中查找文档中短语(多个标记字符串)的频率?

发布于 2024-11-29 09:22:04 字数 140 浏览 0 评论 0原文

我想查找文档中多标记字符串或短语的频率。这不是我正在寻找的单词/单个术语的频率,它总是多个术语,并且术语的数量是动态的......

例如:在文档中搜索“与朋友的单词”的频率!

任何帮助/指示将不胜感激。

谢谢 德布贾尼

I want to find the frequency of a multiple-token-string or phrase inside a document. Its not the word/single-term frequency that I am looking for, its always will be multiple-term and the number of terms are dynamic ...

ex : searching the frequency of "words with friends" inside a document!

Any help/pointer will be much appreciated.

Thanks
Debjani

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

筑梦 2024-12-06 09:22:04

您可以使用 Buffered Reader 逐行读取文档,然后使用 split 函数获取单词/标记

int count=0;
while ((strLine = br.readLine()) != null)   {
     count+ = (strLine.split("words with friends").length-1);     
}
return count;

编辑的频率:
如果你想执行不区分大小写的搜索,那么你可以使用

Pattern myPattern = Pattern.compile("words with friends", Pattern.CASE_INSENSITIVE);
int count=0;
while ((strLine = br.readLine()) != null)   {
     count+ = (myPattern.split(strLine).length-1);    
}
return count;

You can read the document line by line using Buffered Reader, and then use split function to get the frequency of word/token

int count=0;
while ((strLine = br.readLine()) != null)   {
     count+ = (strLine.split("words with friends").length-1);     
}
return count;

EDIT:
And if you want to perform case-insensitive search, then you can use

Pattern myPattern = Pattern.compile("words with friends", Pattern.CASE_INSENSITIVE);
int count=0;
while ((strLine = br.readLine()) != null)   {
     count+ = (myPattern.split(strLine).length-1);    
}
return count;
囍笑 2024-12-06 09:22:04

为什么不使用正则表达式?正则表达式针对此类任务进行了优化。

http://download.oracle.com /javase/1.5.0/docs/api/java/util/regex/Matcher.html

Why not use regex? Regex is optimized for this sort of task.

http://download.oracle.com/javase/1.5.0/docs/api/java/util/regex/Matcher.html

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文