spring - 使用 Spring Batch 分区处理海量数据-6ren

spring - 使用 Spring Batch 分区处理海量数据

转载作者：行者123 更新时间：2023-12-04 18:05:32

25

4

我正在实现 spring 批处理作业以使用分区方法处理数据库表中的数百万条记录，如下所示 -

从分区器中的表中获取唯一的分区代码，并在执行上下文中设置相同的分区代码。

使用读取器、处理器和写入器创建块步骤，以根据特定的分区代码处理记录。

这种方法是否合适，或者对于这种情况有更好的方法吗？由于某些分区代码可以比其他分区代码具有更多的记录数，因此具有更多记录的分区代码可能比具有较少记录的分区代码需要更多的时间来处理。

是否可以创建分区/线程来处理线程 1 进程 1-1000、线程 2 进程 1001-2000 等？

我如何控制创建的线程数，因为分区代码可以在 100 左右，我只想在 5 次迭代中创建 20 个线程和进程？

如果一个分区发生故障会发生什么，所有处理都会停止并恢复吗？

以下是配置——

 <bean id="MyPartitioner" class="com.MyPartitioner" />
 <bean id="itemProcessor" class="com.MyProcessor" scope="step" />
 <bean id="itemReader" class="org.springframework.batch.item.database.JdbcCursorItemReader" scope="step" >
  <property name="dataSource" ref="dataSource"/>
  <property name="sql" value="select * from mytable WHERE code = '#{stepExecutionContext[code]}' "/>
  <property name="rowMapper">
      <bean class="com.MyRowMapper" scope="step"/>
  </property>
</bean>
<bean id="taskExecutor" class="org.springframework.scheduling.concurrent.ThreadPoolTaskExecutor" >
    <property name="corePoolSize" value="20"/>
    <property name="maxPoolSize" value="20"/>
    <property name="allowCoreThreadTimeOut" value="true"/>
</bean>

<batch:step id="Step1" xmlns="http://www.springframework.org/schema/batch">
    <batch:tasklet transaction-manager="transactionManager">
        <batch:chunk reader="itemReader"  processor="itemProcessor" writer="itemWriter" commit-interval="200"/>
    </batch:tasklet>
</batch:step>
<batch:job id="myjob">
    <batch:step id="mystep">
        <batch:partition step="Step1" partitioner="MyPartitioner">
            <batch:handler grid-size="20" task-executor="taskExecutor"/>
        </batch:partition>
    </batch:step>
</batch:job>

分区器 -

public class MyPartitioner implements Partitioner{
@Override
public Map<String, ExecutionContext> partition(int gridSize)
{
Map<String, ExecutionContext> partitionMap = new HashMap<String, ExecutionContext>();
List<String> codes = getCodes();

for (String code : codes)
{
    ExecutionContext context = new ExecutionContext();
    context.put("code", code);
    partitionMap.put(code, context);
}
return partitionMap;}}

谢谢

最佳答案

我会说这是正确的方法，我不明白为什么你需要每 1000 个项目有一个线程，如果你按照唯一的分区代码进行分区并且有 1000 个项目的块，你将在每个线程的 1000 个项目上进行交易，这是 IMO 好的。

除了保存唯一的分区代码外，您还可以计算如何
你有很多每个分区的代码和分区甚至更多，通过
为每 1000 个相同的分区代码创建新的子上下文(即
具有即 2200 条记录的分区代码的方式，您将调用 3
具有上下文参数的线程:1=> partition_key=key1，skip=0，
count=1000, 2=>partition_key=key1, skip=1000, count=1000 和
3=>partition_key=key1, skip=2000, count=1000) 如果这是你
想要，但没有它我还是会去

线程数由 ThreadPoolTaskExecutor 控制创建它时传递给分区步骤。你有方法 setCorePoolSize()您可以将其设置为 20，您将获得最多 20 个线程。下一个细粒度配置是 grid-size它告诉我们将从完整的分区映射中创建多少个分区。这是explanation of grid size .所以分区就是划分工作。之后，您的线程配置将定义实际处理的并发性。

如果一个分区失败，则整个分区步骤失败，并显示哪个分区失败的信息。成功分区已完成并且不会再次调用，当作业重新启动时，它将通过重做失败和未处理的分区来从停止的地方开始。

希望我能回答你所有的问题，因为有很多。

案例 1 的示例- 也许有错误，但只是为了得到想法:

public class MyPartitioner implements Partitioner{
@Override
public Map<String, ExecutionContext> partition(int gridSize)
{
    Map<String, ExecutionContext> partitionMap = new HashMap<String, ExecutionContext>();
    Map<String, int> codesWithCounts = getCodesWithCounts();

    for (Entry<String, int> codeWithCount : codesWithCounts.entrySet())
    {
        for (int i = 0; i < codeWithCount.getValue(); i + 1000){
            ExecutionContext context = new ExecutionContext();
            context.put("code", code);
            context.put("skip", i);
            context.put("count", 1000);
            partitionMap.put(code, context);
        }
    }
    return partitionMap;
}

Adn 比你翻页 1000，你从上下文中得到你应该跳过多少，在 2200 的例子中是:0, 1000, 2000。

关于spring - 使用 Spring Batch 分区处理海量数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29226350/

25

4

0

文章推荐： Cron 表达式每 N 分钟运行一次

文章推荐： spring-hateoas - 如何构建模板化链接？

文章推荐： apache-camel - Apache Camel MQXAQueueConnectionFactory

文章推荐： swagger - 如何为 Swagger 中的键未知的键/值建模

spring-batch - Spring Batch 应用程序与 Spring Batch Admin 集成
我开发了一个 spring batch 应用程序，它使用批处理/shell 脚本部署为可执行 jar。它工作正常。最近我读到有关 spring batch admin 应用程序发布的信息。根据他们的
batch-file - 等待输入 BATCH
我想要的是一个 bat 文件来等待一定时间的输入。如果没有输入，我希望它转到 somethingidk。这是我目前所拥有的。 @echo off :START cls timeout 10 set
batch-file - Batch 无法正确计算方程
我最近尝试在不使用外部命令或工具的情况下批量编写一个程序来计算任何实数(而不是负数)的平方根，该程序基于可以在这里找到的算法:Link1 编辑:我修复了大部分问题，但仍然有一个我没有发现的轻微问题。
batch-file - Batch For循环排除包含以下内容的文件名
我有一个简单的批处理文件，它将遍历所有* Test.htm文件并进行复制。一些文件将包含我不想复制的字符串。 FOR /R "C:\" %%g IN (*Test.htm) DO ( echo %%
batch-file - Batch for 循环是否可以增加步长值？
这可能简短而有趣，但我只是在检查。批处理 for 命令可以有一个递增的步长值吗？ @echo off SetLocal EnableDelayedExpansion set xyz=200 for
batch-file - 文件路径中有空白空间的 Batch-Hell
目前我正处于批处理 hell 中。我想通过批处理文件调用我的 powershell 脚本。只要路径中没有空格，这就可以正常工作。例如，这是有效的 set DATAPATH="%~1
spring-batch - Spring Batch 单线程读取器和多线程写入器
试图找到以前是否有人问过这个问题，但找不到。问题来了。以下必须通过Spring批处理来实现有一个文件需要读取和处理。项目阅读器不是线程安全的。计划是让多线程同质处理器和多线程同质写入器插入由单线程读
spring-batch - 暂停和恢复作业执行 Spring Batch
这里有同样的问题- Spring batch pause/resume vs stop/restart 我在 Spring 检查了 BatchStatus 枚举，没有可用的状态 PAUSED，它仅作为
batch-file - for 循环后的条件 (Batch/CMD)
因此，我目前有这批使用 ffmpeg 将当前文件夹上的每个 .MTS 转换为 .MP4，但是当它完成后，我会在文件夹中同时获得 .mp4 和 .mts。我有 2 个批处理，一个用于转换文件，另一个用
spring-batch - Spring Batch 是不是有点矫枉过正
我需要每周一次将 CSV 加载到数据库中。由于 CSV 文件包含 2 个表的数据，因此需要进行一些数据处理。因此，我将不得不稍微处理一下 CSV 文件，可能会将其转换为 2 个不同的 CSV 文件并将
spring-batch - Spring Batch - 同时执行作业的多个实例
我有一个澄清。我们是否可以同时运行一个作业的多个实例。目前，我们在任何给定时间都有一个作业实例。如果可能，请告诉我如何做。最佳答案是的你可以。 Spring Batch 根据 JobPara
spring-batch - Spring Batch - 跳过过程记录
我想跳过一些过程记录。我尝试过的是，我创建了自定义异常并在我想跳过记录时抛出异常，并且它调用了 onSkipInProcess 方法的跳过监听器。它工作正常。请找到配置。
batch-file - 阻止我的 Batch 在屏幕上滑动
任何人都可以启发我一种方法来阻止我的 bat 在执行时在屏幕上闪烁吗？有没有办法阻止 CMD 窗口执行此操作？？？？最佳答案只是一个猜测，但要防止窗口在看不到打印内容的情况下立即打开和关闭，请在批
batch-file - Windows Batch 将记录添加到主机文件
我需要一个批处理文件来向 windows 中的主机文件添加一条记录，但是我不需要只添加文件，因为我想检查该记录是否已经存在。有可能吗？最佳答案 type "%SystemRoot%\system32
spring-batch - Spring Batch 事务管理如何工作？
我试图了解 Spring Batch 如何进行事务管理。这不是技术问题，而是概念问题:Spring Batch 使用什么方法以及该方法的后果是什么？让我试着澄清一下这个问题。例如，查看 Taskle
batch-file - [NT Batch]如何从用户输入的文件中获取目录？
我需要知道如何从用户输入的文件中提取目录信息，以下面的代码为例: ECHO Drag and drop your .txt file here, after that press Enter: SET
spring-batch - Spring Batch - 如何防止批处理在数据库中存储事务
首先是问题陈述:我在我的 DEV 环境中使用 Spring-Batch 很好。当我将代码移至生产环境时，我遇到了问题。在我的 DEV 环境中，Spring-Batch 能够毫无问题地在我们的 DB2
spring-batch - Spring Batch 架构
你好我是 Spring Batch 领域的新手，最近几天我花了一些时间观看 Michael Minella 的 youtube 视频，阅读了一些文档并成功运行了我在互联网上找到的一些演示项目。我认为
spring-batch - Spring Batch 处理编码的压缩文件
我正在研究使用 spring 批处理来处理编码压缩文件中的记录。记录是可变长度的，其中编码了嵌套的可变长度数据字段。我是 Spring 和 Spring Batch 的新手，这就是我计划构建批处理配
batch-file - Windows Batch - 从字符串中删除第一个单词
我正在尝试批量删除字符串中的第一个单词。示例:“这个 child 喜欢批处理”到“ child 喜欢批处理” 我试过: @echo off set /p text=text: for /f "tok

首页

博学

6Ren·AI

商城

spring - 使用 Spring Batch 分区处理海量数据