java - 如何使用 FlatFileItemReader 和异步处理器优化性能-6ren

java - 如何使用 FlatFileItemReader 和异步处理器优化性能

转载作者：太空宇宙更新时间：2023-11-04 14:08:34

我有一个简单的 csv 文件，约有 400,000 行(仅一列)我花了很多时间来阅读记录并处理它们

处理器根据 couchbase 验证记录

作者 - 写入远程主题我花了大约30分钟。那太疯狂了。

我读到 flatfileItemreader 不是线程安全的。所以我的 block 值为 1。

我读到异步处理可以提供帮助。但我看不到任何改进。

这是我的代码:

@Configuration
@EnableBatchProcessing
public class NotificationFileProcessUploadedFileJob {


    @Value("${expected.snid.header}")
    public String snidHeader;

    @Value("${num.of.processing.chunks.per.file}")
    public int numOfProcessingChunksPerFile;

    @Autowired
    private InfrastructureConfigurationConfig infrastructureConfigurationConfig;

    private static final String OVERRIDDEN_BY_EXPRESSION = null;


    @Inject
    private JobBuilderFactory jobs;

    @Inject
    private StepBuilderFactory stepBuilderFactory;

    @Inject
    ExecutionContextPromotionListener executionContextPromotionListener;


    @Bean
    public Job processUploadedFileJob() throws Exception {
        return this.jobs.get("processUploadedFileJob").start((processSnidUploadedFileStep())).build();

    }

    @Bean
    public Step processSnidUploadedFileStep() {
        return stepBuilderFactory.get("processSnidFileStep")
                .<PushItemDTO, PushItemDTO>chunk(numOfProcessingChunksPerFile)
                .reader(snidFileReader(OVERRIDDEN_BY_EXPRESSION))
                .processor(asyncItemProcessor())
                .writer(asyncItemWriter())
            //    .throttleLimit(20)
             //   .taskJobExecutor(infrastructureConfigurationConfig.taskJobExecutor())


                        //     .faultTolerant()
                        //   .skipLimit(10) //default is set to 0
                        //     .skip(MySQLIntegrityConstraintViolationException.class)
                .build();
    }

    @Inject
    ItemWriter writer;

    @Bean
    public AsyncItemWriter asyncItemWriter() {
        AsyncItemWriter asyncItemWriter=new AsyncItemWriter();
        asyncItemWriter.setDelegate(writer);
        return asyncItemWriter;
    }


    @Bean
    @Scope(value = "step", proxyMode = ScopedProxyMode.INTERFACES)
    public ItemStreamReader<PushItemDTO> snidFileReader(@Value("#{jobParameters[filePath]}") String filePath) {
        FlatFileItemReader<PushItemDTO> itemReader = new FlatFileItemReader<PushItemDTO>();
        itemReader.setLineMapper(snidLineMapper());
        itemReader.setLinesToSkip(1);
        itemReader.setResource(new FileSystemResource(filePath));
        return itemReader;
    }


    @Bean
    public AsyncItemProcessor asyncItemProcessor() {

        AsyncItemProcessor<PushItemDTO, PushItemDTO> asyncItemProcessor = new AsyncItemProcessor();

        asyncItemProcessor.setDelegate(processor(OVERRIDDEN_BY_EXPRESSION, OVERRIDDEN_BY_EXPRESSION, OVERRIDDEN_BY_EXPRESSION,
                OVERRIDDEN_BY_EXPRESSION, OVERRIDDEN_BY_EXPRESSION, OVERRIDDEN_BY_EXPRESSION, OVERRIDDEN_BY_EXPRESSION));
        asyncItemProcessor.setTaskExecutor(infrastructureConfigurationConfig.taskProcessingExecutor());

        return asyncItemProcessor;

    }

    @Scope(value = "step", proxyMode = ScopedProxyMode.INTERFACES)
    @Bean
    public ItemProcessor<PushItemDTO, PushItemDTO> processor(@Value("#{jobParameters[pushMessage]}") String pushMessage,
                                                             @Value("#{jobParameters[jobId]}") String jobId,
                                                             @Value("#{jobParameters[taskId]}") String taskId,
                                                             @Value("#{jobParameters[refId]}") String refId,
                                                             @Value("#{jobParameters[url]}") String url,
                                                             @Value("#{jobParameters[targetType]}") String targetType,
                                                             @Value("#{jobParameters[gameType]}") String gameType) {
        return new PushItemProcessor(pushMessage, jobId, taskId, refId, url, targetType, gameType);
    }

    @Bean
    public LineMapper<PushItemDTO> snidLineMapper() {
        DefaultLineMapper<PushItemDTO> lineMapper = new DefaultLineMapper<PushItemDTO>();
        DelimitedLineTokenizer lineTokenizer = new DelimitedLineTokenizer();
        lineTokenizer.setDelimiter(",");
        lineTokenizer.setStrict(true);
        lineTokenizer.setStrict(true);
        String[] splittedHeader = snidHeader.split(",");
        lineTokenizer.setNames(splittedHeader);
        BeanWrapperFieldSetMapper<PushItemDTO> fieldSetMapper = new BeanWrapperFieldSetMapper<PushItemDTO>();
        fieldSetMapper.setTargetType(PushItemDTO.class);

        lineMapper.setLineTokenizer(lineTokenizer);
        lineMapper.setFieldSetMapper(new PushItemFieldSetMapper());
        return lineMapper;
    }
}


 @Bean
    @Override
    public SimpleAsyncTaskExecutor taskProcessingExecutor() {
        SimpleAsyncTaskExecutor simpleAsyncTaskExecutor = new SimpleAsyncTaskExecutor();
        simpleAsyncTaskExecutor.setConcurrencyLimit(300);
        return simpleAsyncTaskExecutor;
    }

您认为我可以如何提高处理性能并使其更快？谢谢

ItemWriter 代码:

 @Bean
    public ItemWriter writer() {
        return new KafkaWriter();
    }


public class KafkaWriter implements ItemWriter<PushItemDTO> {


    private static final Logger logger = LoggerFactory.getLogger(KafkaWriter.class);

    @Autowired
    KafkaProducer kafkaProducer;

    @Override
    public void write(List<? extends PushItemDTO> items) throws Exception {

        for (PushItemDTO item : items) {
            try {
                logger.debug("Writing to kafka=" + item);
                sendMessageToKafka(item);
            } catch (Exception e) {
                logger.error("Error writing item=" + item.toString(), e);
            }
        }
    }

最佳答案

增加您的提交计数是我要开始的地方。请记住提交计数的含义。由于您将其设置为 1，因此您将对每个项目执行以下操作:

开始交易
阅读文章
处理该项目
写下该项目
更新作业存储库
提交交易

您的配置没有显示委托(delegate) ItemWriter 是什么，所以我无法判断，但至少您每个项目执行多个 SQL 语句来更新作业存储库。

您是正确的，FlatFileItemReader 不是线程安全的。但是，您没有使用多个线程来读取，而只是进行处理，因此据我所知，没有理由将提交计数设置为 1。

关于java - 如何使用 FlatFileItemReader 和异步处理器优化性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28606634/

文章推荐： html - Zend_Form_Element_Radio 选项标签不应被转义

文章推荐： java - 将 Map 转换为内联元素、文本 XML

c - 确定运行线程的套接字/处理器
我为 4 套接字服务器的大对象( double 矩阵)编写 NUMA-aaware 缓存。我观察到套接字间通信是我的应用程序的瓶颈。因此，我希望不同套接字上的线程具有单独的矩阵缓存。我已将线程限制到特
C: JSON 处理器
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: Parsing JSON using C? 处理 JSON 的最佳 C 库是什么？ http://www.j
PHP Spintax 处理器
我一直在使用递归 SpinTax 处理器，如 here 所示, 它适用于较小的字符串。然而，当字符串超过 20KB 时，它开始耗尽内存，这就成了一个问题。如果我有这样的字符串: {Hello|How
c# - 编译时的目标平台/处理器
C# 中是否有一个#define 允许我在编译时知道我是针对 x86 (Win32) 还是针对 x64 (Win64) 进行编译？最佳答案默认情况下没有办法做到这一点。原因是 C# 代码不是针对特
architecture - 叶说明(处理器/程序集)
我不确定 SO 是否是提出这个问题的最佳场所。如果没有，请告诉我应该去哪个姊妹网站。我一直在阅读一篇关于英特尔的可信执行技术 (TXT) 的论文，其中包含以下我似乎无法理解的文字: “英特尔创建了一
xslt - 节省内存的 XSLT 处理器
我需要一个工具来针对执行 XSLT非常大 XML 文件。需要明确的是，我不需要任何东西来设计、编辑或调试 XSLT，只需执行它们即可。我正在使用的转换已经很好地优化了，但是大文件导致我尝试过的工具(
apache-camel - 处理器，组件和端点之间的区别
我正在学习Apache Camel。能否请您解释一下关于Apache Camel的处理器，组件和端点之间的区别。最佳答案我建议所有刚接触Apache Camel的人阅读这篇文章，它很好地解释了C
concurrency - 锁定 Camel 处理器
我想知道在 Camel 处理器上获得同步的方法。我在 docs 找到的唯一相关内容: Note that there is no concurrency or locking issue when
multithreading - 有没有办法在服务器级别强制停止 nifi 处理器？
我看到这个 https://issues.apache.org/jira/browse/NIFI-78在 jira 上，但它引用了 java。有没有办法将 nifi 进程映射到服务器上的线程，以便我可
java - react 器选择接收器/处理器
我有以下用例: 在一个应用程序中，我使用 X 线程消费一些消息，其中我有一个这样定义的 Consumer 实现: public interface Consumer { onMessage(
assembly - 不能使用 CPU12 处理器
CPU12 处理器中是否有提供简单 NOT 功能的代码？最佳答案这应该是 the datasheet您正在寻找。没有可用的logical NOT，您必须自己编写代码。关于assembly - 不
java - Oracle XSLT 处理器
我对 Oracle XDK 中包含的 Java XSLT 处理器与 Oracle DB 中嵌入并由 SQL XMLtransform 函数使用的 XSLT 处理器之间的关系感到困惑。这些是相同的野兽
java - 端点的 Camel 处理器
我正在试用 Camel，发现它是一个方便的端点集成工具。我已经设置了以下实验性应用程序: 第一个端点是一个简单的 http-get 请求(在命令行上使用 curl)。这与使用 Jetty 的中央交换机
java - 将未编码的对象传递给 Camel 处理器
我正在为一个应用程序使用 Apache Camel 和 Spring Boot。我需要从目录中读取数据，然后解码读取的 xml，然后处理解码的对象以在其中设置更多数据，然后再次对其进行编码并将其发送到
java - 扩展原生 NiFi 处理器
我已经知道如何编写自定义处理器(扩展org.apache.nifi.processor.AbstractProcessor)。我已经使用了这种技术，并且也可以轻松创建自定义 org.apache.ni
Python EasyList 处理器/解析器
是否有任何用 python 编写的 EasyList 处理器/解析器？ http://easylist.adblockplus.org/en/ 最佳答案找到了!就像一个月后:( http://adb
css - 浏览器 SCSS 处理器？
我有一个无法安装任何东西的开发(说来话长)。我只需要使用纯 HTML/浏览器 JS 进行开发，并且我想使用 CSS 预处理器。我喜欢 SCSS (SASS)，但为了使用它，我必须在我的机器上安装 ru
programming-languages - 特定于语言的架构/处理器
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
c - 如何开始使用 ARM 处理器？
对于新手来说，是直接从 ARM 处理器的数据表和用户手册开始，还是先了解一下 ARM 世界然后再继续？最佳答案当我开始使用一项(对我而言)新技术时，我首先会找到尽可能多的数据表和应用说明，然后直接
Android 模拟器系统镜像和 AMD 处理器
我使用 AMD FX X6 6300 型处理器。 (它支持虚拟化，我的 BIOS 设置为 ON) 我安装了“英特尔 x86 仿真器加速器”。当我尝试运行 Intel 加速器设置时，我得到该设置无法安装

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 如何使用 FlatFileItemReader 和异步处理器优化性能