Java循环插入50万条数据,为什么内存溢出了??
背景:有几个结构相同的文章表,每个表数据不足10万,其中的 文章内容字段 保存文章的 HTML 代码。由于文章中有很多图片,所以 文章内容字段 里面有很多的<img> 标签。
数据库:Mysql
数据量:几个表总共加起来的文章数在20万左右,文章内容字段 平均每个字段包括10个 <IMG> 标签。
意图:取出所有的文章表内容字段里面的图片 URL,保存到单独一张表中。
思路:执行Mysql分页查询,每次取出100条数据,分析其中的content字段,用正则匹配出所有的<img>标签的 src 属性,然后插入到另外一个表中。
环境:Win7 64 bit
运行:指定了1G内存
java -Xms256m -Xmx1024m -XX:-UseGCOverheadLimit com.example.tools.ImgsTable
问题:指定50条记录分页查询的时候,总共的数据插入到50万条左右的时候就内存溢出了。报在了MD5方法。指定200条记录分页查询的时候,同样是数据插入到50万条左右的时候就内存溢出了。异常报在了prepareStatement。
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at sun.nio.cs.ext.GBK.newEncoder(GBK.java:36) at java.lang.StringCoding$StringEncoder.<init>(StringCoding.java:215) at java.lang.StringCoding$StringEncoder.<init>(StringCoding.java:207) at java.lang.StringCoding.encode(StringCoding.java:266) at java.lang.StringCoding.encode(StringCoding.java:284) at java.lang.String.getBytes(String.java:986) at com.ytt.tools.ImgsTable.md5(ImgsTable.java:29) at com.ytt.tools.ImgsTable.main(ImgsTable.java:102)
完整程序代码:
注:其中ConnectionPool 是个连接池
package com.example.tools; import java.math.BigInteger; import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.Date; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class ImgsTable { private final static String IMGROOT = "IMGS/"; private final static String PATH_SEP = "/"; private final static int page_size = 50; //主方法入口 public static void main(String[] args) { //匹配img标签的src Pattern p = Pattern .compile("<IMG....."); //几个表 List<String> tables = new ArrayList<String>(); tables.add("post01"); tables.add("post02"); tables.add("post03"); SimpleDateFormat dateFormat = new SimpleDateFormat("yyyyMMddHHmmss"); try { //循环操作几个表 for (int ti = 0; ti < tables.size(); ti++) { String tablename = tables.get(ti); String now = dateFormat.format(new Date()); //每次取出50条记录 String sql = "select dt_id,dt_channel,dt_content from " + tablename + " where dt_status is null order by dt_id limit ?,?"; int page = 0; boolean continueWork = true; while (continueWork) { Connection conn = ConnetionPool.getConnection(); PreparedStatement ps = conn.prepareStatement(sql); ps.setInt(1, page * page_size); ps.setInt(2, page_size); ResultSet rs = ps.executeQuery(); if (!rs.next()) { continueWork = false; break; } rs.beforeFirst(); //开始事务 conn.setAutoCommit(false); while (rs.next()) { String content = rs.getString("dt_content"); String dt_channel = rs.getString("dt_channel"); int id = rs.getInt("dt_id"); Matcher m = p.matcher(content); while (m.find()) { String imgUrl = m.group(1); if (imgUrl.length() <= 248) { String md5Url = md5(imgUrl); String img_localpath = IMGROOT + tablename + PATH_SEP + dt_channel + PATH_SEP + id + PATH_SEP + md5Url + "." + getExtensionName(imgUrl); String iSql = "insert into imgs(img_url,img_md5,img_localpath,img_halt,img_stable,img_schannel,img_skey,img_addtime) values(?,?,?,?,?,?,?,?)"; now = dateFormat.format(new Date()); try { ps = conn.prepareStatement(iSql); ps.setString(8, now); if (img_localpath.length() <= 120) { ps.execute(); } } catch (SQLException e) { e.printStackTrace(); } } } } //提交事务 conn.commit(); rs.close(); rs = null; ps.close(); ps = null; conn.close(); conn = null; page++; } } } catch (Exception e) { e.printStackTrace(); } } }
不知道我的代码问题出在了哪里?为什么分明我每次是只取出50条记录出来操作,但是内存使用量还是不断增长,到增长到1G的时候,持续一段时间,就会报错,最终的数据处理量只能达到50万左右。
请问,是我的变量定义有问题吗?或者其他问题??
求高手解答!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(14)
同意楼上 string ,非常明显了,string 类型,还是循环
很明显是拼接string 啊,用stringbuilder
、目测下来,很有可能是数据库连接过大消耗完了内存!
曾经我的项目也出现过此问题!加入开源的proxool 就ok 了!
建议楼主项目加入缓存!
是在不行,用eclipse提供的堆栈跟踪tool看看!
全局只采用一个连接的方法已经测试过了,问题是同样的。 因为就数据情况而言这段代码始终都不会报SQL异常,所以没有写finally,前期的代码中已经排除掉SQL插入的异常了,现在每次关闭连接是没有问题的。
因为我每次事务下来都关闭了结果集、PreparedStatement和数据库连接,而且我每次取连接是用的连接池。不知道是不是因为连接过多的原因?
、目测下来,很有可能是数据库连接过大消耗完了内存!
曾经我的项目也出现过此问题!加入开源的proxool 就ok 了!
建议楼主项目加入缓存!
是在不行,用eclipse提供的堆栈跟踪tool看看!
为什么内存会不断增长呢?我每次匹配完了,不是正则所占内存会被回收吗?
是不是字符串的编码出问题了,报错位置的类这是干嘛的?at sun.nio.cs.ext.GBK.newEncoder(GBK.java:36)
回复
这个位置应该是MD5加密的原字符串过长需要较多内存造成的,但异常根本原因还是其他地方占用了绝大部分内存。
尝试每次少取点儿,正则的确很占内存,尤其在正则不是那么高效的情况下
很多靠眼睛难找的bug,用工具监测下很容易就发现了。
发现问题了,是没有创建新的ps和close掉的原因。谢谢了!
回复
你用的什么工具?
ps变量的使用有问题吧,在二重循环里用ps取结果集,但在三重循环里又用ps插入数据,而且每次三重循环在创建新ps前都没有close。