- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我目前正在我们基于 hibernate 的应用程序中进行性能和内存调整,以进行大批量/批量导入。我们基本上是导入一个包含产品数据的 CSV 文件,其中一些产品是新的(插入),一些存在(更新)。
我现在的重点是选择一种策略来找出要更新哪些实体以及要插入哪些实体,而无需对 CSV 文件中的每一行进行检查(选择是否存在)。
我目前的做法是这样的:
这种方法效果很好,测试证明它比对每一行进行这样的单个 IF EXISTS 检查要快得多。
如果数据库中有很多实体,我担心的是内存大小。
现在我正在考虑使用上述方法的细微变化,我想知道意见。基本上我想做的是对多行进行多批 IF EXISTS 检查(例如 SELECT FROM table where sku IN (sku1, sku2, sku3)
)
这是一些伪代码:
1. Database contains: db{sku1, sku2,sku3,sku5}
2. file contains: file {sku1, sku2, sku3, sku6}
3. Expected result:
updates: {sku1, sku2, sku3}
inserts{sku6}
4. Algorithm
have a map to keep database entities which need updates
updatemap {}
now iterate over the file in e.g. batches of 2 rows (for demo purposes)
1st iteration: foreach (select where sku IN (sku1, sku2) limit 2) as elem
-> updatemap.add(elem) -> elem is asumed to be a persistent entity here
-> myDAO.update(elem) -> executes Spring's getHibernateTemplate().update() under the hood
-> updatemap contents after 1st loop {sku1, sku2}
2nd iteration: foreach (select where sku IN (sku3, sku6) limit) 2 as elem
-> updatemap.add(elem)
-> myDAO.update(elem)
-> updatemap contents after 3nd loop {sku1, sku2, sku3}
顺便说一句:我也已经假设了像 (if i % 30 == 0) session.flush; 这样的东西。 session.clear();
现在我们知道所有已更新的元素。不在 updatemap 中的所有 skus 基本上都是插入,我们可以使用简单的集合算法来确定这些
file {sku1, sku2, sku3, sku6} - updatemap {sku1, sku2, sku3} = newinserts {sku6}
现在我们可以继续对剩余的 CSV 行进行插入。
结论我的假设是,由于文件内容的分块,我可以限制使用的内存量。我有比我最初的方法更多的 SELECT 语句,但我对内存使用有更多的控制,以防数据库中已经有数千个实体。
您对此有何看法?还有哪些其他有效方法可以找出要更新哪些实体以及批量插入哪些实体?
最佳答案
我遇到了完全相同的问题,涉及数百万条记录,并且几乎完全按照您的方式解决了。旁观者可能不明显的一个约束是我们不能使用常规的 Hibernate 加载-变异-更新方式,因为这会产生过多的冗余流量。
仔细阅读后,我的方法与您的不同之处在于我不保留任何超出处理单个 block 的信息。在继续下一个之前,我完整地处理了 block ,包括所有插入和更新。只有这样,您才能拥有可扩展的解决方案。
对我来说最薄弱的一点是 executeUpdate
的使用,它不会使用 JDBC 批处理 API。我计划进行自定义实现,但对于我的特定用例,事实证明我不需要为每个 block 使用多个 executeUpdate
。
关于java - Hibernate Mass 插入/更新 : is this a good approach?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12131981/
什么是 hibernate 和n- hibernate ?我可以在 Visual Studio 2008 中使用它进行 C# Web 应用程序开发吗?请给我建议...我是 asp.net Web 应用
我有一个不系统地发生的异常(exception)。 我试图通过在每次迭代中刷新和清理 session 来解决此问题,但没有成功。 [quartzScheduler_Worker-7] ERROR jd
使用 Hibernate 在数据库中存储 IP 地址的最佳类型是什么? 我虽然是 Byte[] 或 String,但有没有更好的方法,或者你用什么? @Column(name = "range_fr
我正在尝试制定一个公式来选择用户个人资料的用户友好名称。它选择名字 + ' ' + 姓氏 如果其中至少有一个不为空且不为空(包含非空白字符),否则选择 短名称 (条件相同),最后,如果 短名称 为空或
在hibernate中,是否可以将鉴别器作为一个实体?例如,如果我将 Department 作为基类,将 AdminDepartment 和 ProcessingDepartment 作为子类。 De
我只想从表中获取一些列值。因此,我已经使用投影来实现这一目标。该代码有效,但我认为它无效。 我的问题是当我使用ProjectionsList并将标准条件列表设置为ArrayList时-Bulletin
你好: 我对 hibernate 缓存缓存的内容感到困惑。 从文档中,我知道 hibernate 中有缓存类型。 一级 :交易级别。 似乎要被 session 持久化的实体被缓存在这里。 二级缓存 :
我遇到了一个情况: save或update hibernate 的目标表中的某些数据 在目标表上有一个触发器,该触发器将在目标表的insert或update操作之前执行 由 hibernate 将此记
我有一个名为 Master_Info_tbl 的表。它是一个查询表: 这是该表的代码: @Entity @Table(name="MASTER_INFO_T") public class Code
我想知道如何在 Hibernate 查询语言中使用日期文字。我在我的 JPA 项目中做了如下操作(作为 Eclipselink 提供者)并且它工作正常。 SELECT m FROM Me m WHER
@Entity public class Troop { @OneToMany(mappedBy="troop") public Set getSoldiers() { ...
我正在尝试使用 hibernate 查询删除表 'user_role' 中的所有行。但每次我都会出错。有人可以帮我吗。 DaoImpl @Override public void deleteAll(
不是将数据库操作分散在四个 (osgi) 包中,而是在那里做略有不同的事情。我想创建一个负责所有持久性问题的(简单的)OSGi 包。我觉得这并不像听起来那么简单,因为“每个包都有独特的类加载器”。 因
这就是我使用生成器的方式: private Integer id; 我看到的行为是: 创建第一个对象 hibernate 分配 id = 1 删除该对象 关闭服务
对象级别的实体和值类型有什么区别。我知道实体将有一个 id 但值不会,但为什么我们需要不同的方法来映射实体与值类型? 这样做是为了让hibernate可以对值类型应用任何优化吗? 最佳答案 一个实体已
我正在使用 HibernateTemplate.findByCriteria 方法进行一些查询。现在我想在标准上创建一些 SQL 限制,比如 criteria.add(Restrictions.sql
所以我有以下代码: Query query = session.createQuery("from Weather"); List list = query.list();
如何使用Hibernate映射具有多个实体的 View ? 问候, 混沌 最佳答案 请参见Hibernate文档中第5.1.3节“类”,紧接在“Id”节之前: There is no differen
据我所知,Hibernate 有两种类型的实现 JPA的实现(2)(@Entity,@Table注解) 扩展到旧的(传统的) hibernate (没有 JPA),使用 HSQL 查询,没有注释 如果
我需要一个将条目存储为键值对的集合(因此我可以通过键查找值),但我需要一个允许多个值使用 hibernate 共享同一个键的集合 最佳答案 一个键具有多个值的映射称为多映射 - 在 Apache 公共
我是一名优秀的程序员,十分优秀!