Java 读取txt格式语料库并匹配指定字符串,如何可以快速完成?
有一个9M多行的语料库,文件大小4G。现在需要匹配指定动词,符合句子条件的输出。
但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。
BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));
tring line = cpreader.readLine();
while(line != null)
{
ArrayList<String> verbList = new ArrayList();
matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line);
if(matcher_line.find())
{
System.out.println(line);
}
line = cpreader.readLine();
}
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(5)
读文件的话应该是没有问题的,不过你可以尝试改为缓冲式读取,因为一行的大小 可能是不确定的,会对效率造成影响吧。。
匹配的话如果是单个单词的话,可以改用更好的匹配方法,正则的话就不晓得了
你的程序是按行处理,单线程处理肯定慢,用多线程处理,每个线程处理一行,处理完后再请求处理下一行,读取行的话最好用缓存读取多行,然后再分配给多个线程处理,这样可以最大利用CPU。
nio+多线程
这个在循环里边,每次都要编译正则,所以很慢,你把这个放到while外边看看
AC自动机,构造的树大小应该不到4G,普通的笔记本都应该够了