Java循环插入50万条数据,为什么内存溢出了??

发布于 2022-01-07 19:52:24 字数 4716 浏览 881 评论 14

背景:有几个结构相同的文章表,每个表数据不足10万,其中的 文章内容字段 保存文章的 HTML 代码。由于文章中有很多图片,所以 文章内容字段 里面有很多的<img> 标签

数据库:Mysql

数据量:几个表总共加起来的文章数在20万左右,文章内容字段 平均每个字段包括10个 <IMG> 标签。

意图:取出所有的文章表内容字段里面的图片 URL,保存到单独一张表中。

思路:执行Mysql分页查询,每次取出100条数据,分析其中的content字段,用正则匹配出所有的<img>标签的 src 属性,然后插入到另外一个表中。

环境:Win7 64 bit

运行:指定了1G内存


java -Xms256m -Xmx1024m -XX:-UseGCOverheadLimit com.example.tools.ImgsTable


问题:指定50条记录分页查询的时候,总共的数据插入到50万条左右的时候就内存溢出了。报在了MD5方法。指定200条记录分页查询的时候,同样是数据插入到50万条左右的时候就内存溢出了。异常报在了prepareStatement。

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
        at sun.nio.cs.ext.GBK.newEncoder(GBK.java:36)
        at java.lang.StringCoding$StringEncoder.<init>(StringCoding.java:215)
        at java.lang.StringCoding$StringEncoder.<init>(StringCoding.java:207)
        at java.lang.StringCoding.encode(StringCoding.java:266)
        at java.lang.StringCoding.encode(StringCoding.java:284)
        at java.lang.String.getBytes(String.java:986)
        at com.ytt.tools.ImgsTable.md5(ImgsTable.java:29)
        at com.ytt.tools.ImgsTable.main(ImgsTable.java:102)



完整程序代码:

注:其中ConnectionPool 是个连接池

package com.example.tools;

import java.math.BigInteger;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ImgsTable {

	private final static String IMGROOT = "IMGS/";
	private final static String PATH_SEP = "/";
	private final static int page_size = 50;
	



	//主方法入口
	public static void main(String[] args) {

		//匹配img标签的src
		Pattern p = Pattern
				.compile("<IMG.....");

		//几个表
		List<String> tables = new ArrayList<String>();

		tables.add("post01");
		tables.add("post02");
		tables.add("post03");

		SimpleDateFormat dateFormat = new SimpleDateFormat("yyyyMMddHHmmss");

		try {

			//循环操作几个表
			for (int ti = 0; ti < tables.size(); ti++) {

				String tablename = tables.get(ti);

				String now = dateFormat.format(new Date());

				//每次取出50条记录
				String sql = "select dt_id,dt_channel,dt_content from "
						+ tablename
						+ " where dt_status is null order by dt_id limit ?,?";

				int page = 0;
				boolean continueWork = true;
				while (continueWork) {

					Connection conn = ConnetionPool.getConnection();

					PreparedStatement ps = conn.prepareStatement(sql);
					ps.setInt(1, page * page_size);
					ps.setInt(2, page_size);

					ResultSet rs = ps.executeQuery();

					if (!rs.next()) {
						continueWork = false;
						break;
					}

					rs.beforeFirst();

					//开始事务
					conn.setAutoCommit(false);
					while (rs.next()) {
						String content = rs.getString("dt_content");
						String dt_channel = rs.getString("dt_channel");
						int id = rs.getInt("dt_id");

						Matcher m = p.matcher(content);

						while (m.find()) {
							String imgUrl = m.group(1);
							if (imgUrl.length() <= 248) {
								String md5Url = md5(imgUrl);
								String img_localpath = IMGROOT + tablename
										+ PATH_SEP + dt_channel + PATH_SEP + id
										+ PATH_SEP + md5Url + "."
										+ getExtensionName(imgUrl);

								String iSql = "insert into imgs(img_url,img_md5,img_localpath,img_halt,img_stable,img_schannel,img_skey,img_addtime) values(?,?,?,?,?,?,?,?)";
								now = dateFormat.format(new Date());
								try {
									ps = conn.prepareStatement(iSql);
									
									ps.setString(8, now);
									if (img_localpath.length() <= 120) {
										ps.execute();
									}
								} catch (SQLException e) {
									e.printStackTrace();
								}
							}
						}
					}

					//提交事务
					conn.commit();
					rs.close();
					rs = null;
					ps.close();
					ps = null;
					conn.close();
					conn = null;

					page++;
				}
			}
		} catch (Exception e) {
			e.printStackTrace();
		}

	}
}


不知道我的代码问题出在了哪里?为什么分明我每次是只取出50条记录出来操作,但是内存使用量还是不断增长,到增长到1G的时候,持续一段时间,就会报错,最终的数据处理量只能达到50万左右。

请问,是我的变量定义有问题吗?或者其他问题??


求高手解答!





如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(14

成熟稳重的好男人 2022-01-08 07:02:50

同意楼上 string ,非常明显了,string 类型,还是循环

奢华的一滴泪 2022-01-08 07:02:49

很明显是拼接string 啊,用stringbuilder

韬韬不绝 2022-01-08 07:02:46

、目测下来,很有可能是数据库连接过大消耗完了内存!

曾经我的项目也出现过此问题!加入开源的proxool 就ok 了!

建议楼主项目加入缓存!

是在不行,用eclipse提供的堆栈跟踪tool看看!

小瓶盖 2022-01-08 07:02:46

全局只采用一个连接的方法已经测试过了,问题是同样的。 因为就数据情况而言这段代码始终都不会报SQL异常,所以没有写finally,前期的代码中已经排除掉SQL插入的异常了,现在每次关闭连接是没有问题的。

把昨日还给我 2022-01-08 07:02:44

因为我每次事务下来都关闭了结果集、PreparedStatement和数据库连接,而且我每次取连接是用的连接池。不知道是不是因为连接过多的原因?

三月梨花 2022-01-08 07:02:36

、目测下来,很有可能是数据库连接过大消耗完了内存!

曾经我的项目也出现过此问题!加入开源的proxool 就ok 了!

建议楼主项目加入缓存!

是在不行,用eclipse提供的堆栈跟踪tool看看!

拥有 2022-01-08 07:01:31

为什么内存会不断增长呢?我每次匹配完了,不是正则所占内存会被回收吗?

高跟鞋的旋律 2022-01-08 07:00:28

是不是字符串的编码出问题了,报错位置的类这是干嘛的?at sun.nio.cs.ext.GBK.newEncoder(GBK.java:36)

顾挽 2022-01-08 06:53:28

回复
这个位置应该是MD5加密的原字符串过长需要较多内存造成的,但异常根本原因还是其他地方占用了绝大部分内存。

柒夜笙歌凉 2022-01-08 06:47:46

尝试每次少取点儿,正则的确很占内存,尤其在正则不是那么高效的情况下

多情癖 2022-01-08 06:44:16

很多靠眼睛难找的bug,用工具监测下很容易就发现了。

流心雨 2022-01-08 06:16:08

发现问题了,是没有创建新的ps和close掉的原因。谢谢了!

温柔少女心 2022-01-08 06:14:32

回复
你用的什么工具?

女中豪杰 2022-01-08 06:04:02

ps变量的使用有问题吧,在二重循环里用ps取结果集,但在三重循环里又用ps插入数据,而且每次三重循环在创建新ps前都没有close。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文