Spring,Hibernate——批量处理大量数据，性能良好

发布于 2024-12-25 15:02:22 字数 702 浏览 1 评论 0 原文

想象一下您的数据库中有大约大量数据。〜100Mb。我们需要以某种方式处理所有数据（更新或导出到其他地方）。如何出色地完成这项任务？如何设置交易传播？

示例 1#（性能较差）：

@Singleton
public ServiceBean {

 procesAllData(){

   List<Entity> entityList = dao.findAll();

   for(...){
     process(entity);
   }

 }

 private void process(Entity ent){
  //data processing    
  //saves data back (UPDATE operation) or exports to somewhere else (just READs from DB)
 }

}

这里有什么可以改进的地方？

在我看来：

我会设置休眠批量大小（请参阅批量处理的休眠文档）。
我将 ServiceBean 分成两个具有不同事务设置的 Spring bean。方法 processAllData() 应该用完事务，因为它运行大量数据，并且潜在的回滚不会“快速”（我猜）。方法 process(Entity 实体) 将在事务中运行 - 在一个数据实体的情况下回滚没什么大不了的。

你同意？有什么建议吗？

原文

Imagine you have large amount of data in database approx. ~100Mb. We need to process all data somehow (update or export to somewhere else). How to implement this task with good performance ? How to setup transaction propagation ?

Example 1# (with bad performance) :

@Singleton
public ServiceBean {

 procesAllData(){

   List<Entity> entityList = dao.findAll();

   for(...){
     process(entity);
   }

 }

 private void process(Entity ent){
  //data processing    
  //saves data back (UPDATE operation) or exports to somewhere else (just READs from DB)
 }

}

What could be improved here ?

In my opinion :

I would set hibernate batch size (see hibernate documentation for batch processing).
I would separated ServiceBean into two Spring beans with different transactions settings. Method processAllData() should run out of transaction, because it operates with large amounts of data and potentional rollback wouldnt be 'quick' (i guess). Method process(Entity entity) would run in transaction - no big thing to make rollback in the case of one data entity.

Do you agree ? Any tips ?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

十年九夏 2025-01-01 15:02:22

这里有 2 个基本策略：

JDBC 批处理：设置 JDBC 批处理大小，通常在 20 到 50 之间 (hibernate.jdbc.batch_size)。如果您要混合和匹配对象 C/U/D 操作，请确保已将 Hibernate 配置为排序插入和更新，否则它将不会批处理（hibernate.order_inserts 和 hibernate.order_updates ）。在进行批处理时，必须确保 clear() 您的 Session，以免在大型事务期间遇到内存问题。
连接 SQL 语句：实现 Hibernate Work 接口并使用您的实现类（或匿名内部类）针对 JDBC 连接运行本机 SQL。通过分号连接手动编码的 SQL（适用于大多数数据库），然后通过 doWork 处理该 SQL。此策略允许您使用 Hibernate 事务协调器，同时能够利用本机 SQL 的全部功能。

您通常会发现，无论获得 OO 代码的速度有多快，使用连接 SQL 语句等 DB 技巧都会更快。