java - spring在多个子目录中批处理多个源-6ren

java - spring在多个子目录中批处理多个源

转载作者：行者123 更新时间：2023-11-30 04:00:55

25

4

我是 Spring Batch 的新手，正在浏览 Spring Batch 并阅读 multipartItemReder ，我猜 multipartItemReader 不适合我的项目。请通过您的想法和公会给出几点意见。

我有超过 5000 万个 xml 文件，如下所示的目录结构。

 GOOD
    0
      001/en/1.xml
      001/jp/1.xml
      002/en/2.xml
      003/en/3.xml
      004/jp/4.xml
       .... 
       ....
      999/jp/1.xml  
    1000
      001/en/1.xml
      001/jp/1.xml
      002/en/2.xml
      003/en/3.xml
      004/jp/4.xml
       .... 
       ....
      999/jp/1.xml  
    2000
    3000
    ... 
    .. no limit 
 REMAKE/
    0
      001/en/1.xml
      001/jp/1.xml
      002/en/2.xml
      003/en/3.xml
      004/jp/4.xml
       .... 
       ....
      999/jp/1.xml  
 PROCLAIMED/
 ...
  ...
  ....
  like 100 directories ..

每个源(GOOD、REMAKE、PROCLAIMED ...等)都有不同的 xml 文件格式。1.我需要为每个源创建项目处理器。2.每个源将是一个线程或提交事务=1或线程跨度基于SOURCE////.xml内的lang文件的数量，什么是更好的选项。3.我还是觉得ItemReader的实现比较复杂。这里每个 xml 文件只有一条记录。请分享您的评论。

谢谢

最佳答案

对于这种情况，最好的做法可能是使用 partitioning ;我还没有尝试过，所以我帮不上什么忙，但我认为当您要管理相同类型的数据时分区很有帮助，而不是在数据混合的情况下。

现在我的 2 美分...
我会去parallel steps

使用split/flow将每个源作为单独的线程进行管理
不需要让commit-interval等于1；您可以使用较大的值(或者如果您想要细粒度的提交，则可以使用自定义的CompletionPolicy)来提高性能
使用 MultiResourceItemReader 委托(delegate)给特定于每种来源的 StaxEventItemReader
针对读取器返回的每种对象的专用处理器
作家(取决于您的需求)

<小时/>

<job id="job1">
  <split id="split1" task-executor="taskExecutor" next="lastStep">
    <flow>
      <step id="GOOD" />
    </flow>
    <flow>
      <step id="REMAKE" />
    </flow>
    <flow>
      <step id="PROCLAIMED" />
    </flow>
  </split>
  <step id="GOOD">
    <tasklet>
      <batch commit-interval="100">
        // Set MultiResourceItemReader and delegate to specialized StaxEventItemReader for GOOD file structure
        // Set specialized processor for GOOD object
        // Set writer (IDK which type)
      </batch>
  </step>
</job>

关于java - spring在多个子目录中批处理多个源，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21990261/

25

4

0

文章推荐： c++ - 在 C++ 类中运行线程

文章推荐： java - ElasticSearch - 无法读取请求数据

文章推荐： java - 设置比较器不是通用的；它不能用参数参数化

文章推荐： java - 更改 deb 包中的所有用户 PATH 变量

Golang 子目录
有没有办法为我的一些文件创建一个子目录？这纯粹是为了文件组织。我有大量的小结构/方法，我想将它们放入它们自己的文件和子目录中，但我不想将它们放入它们自己的包中。他们依赖于我项目中的其他功能。每一个都在
cmd - 带有不包含文件夹的Xcopy(子目录)
我想将目录中的文件和文件夹复制到另一个文件夹中，但不包含包含该文件的子文件夹，例如，对于node_modules目录，我有大量文件，例如100Mb和50K +个文件，不需要复制。我试过这样使用xco
Nginx 子目录 404
嘿，我想安装一个论坛(xenforo)，我已经得到了所有的 .php 文件，我把文件夹放在/usr/share/nginx/html 页面在哪里(主页 index.html)，但是当我做 127.0.
symfony - Controller 子目录？
我想在我的 Symfony2 应用程序的子目录中隔离一些 Controller 。像这样的东西: route: resource: "@MyBundle/Controller/Admin/"
Azure CloudBlobDirectory 子目录
我们有一个由离岸外包开发公司开发的旧应用程序，它仍在使用 Azure 存储客户端 1.7。因此，我会在此版本停止工作之前对其进行更新。有一个单元测试我无法通过。 [TestMethod()
WordPress - 子目录 - htaccess
我已将 WordPress 安装在子目录中: /public_html/blog/ 我希望能够像这样访问博客: http://example.com/blog 以及类似这样的帖子: http://ex
c# - 复制文件并备份现有的 + 子目录
我正在尝试制作一个程序来将特定文件夹中的文件以及主文件夹的子文件夹中的文件备份到另一个备份文件夹。这是我试图实现目标的代码的一部分，但是我只备份了主文件夹中的文件，而子文件夹正在被完全复制(其中的所
ios - NSTemporaryDirectory 子目录
我无法在 NSTemporaryDirectory 子文件夹中存储任何文件 rootDirectoryName 是 GUIDsubDirectoryName 也是一个 GUID self.rootFo
java - 重命名目录和一些包含文件/子目录
我最近正在制作一些 Java 软件来查找文件夹中的一些文件/目录，如果它们的名称包含某些文本，它们将被重命名为其他名称。我使用 Files.walkFileTree 遍历目录，如果找到一个匹配的文件/
linux - HAproxy 子目录
我一直在互联网深处搜索，试图让 HAProxy 正常运行，但我不确定它能否完成我想要的。我试着按照这个:https://www.haproxy.com/blog/howto-write-apache
linux - 如何找到文件数量最多的目录/子目录
我正在尝试查找其中包含最多文件的目录。我知道我可以使用以下方法找到文件数: find -maxdepth 5 -type f | wc -l 但这只有在我知道要检查哪个目录时才有用。我想找到包含最多文
c - Makefile 子目录
我正在尝试按如下方式组织我的项目目录外壳 |inc/[头文件] |obj/[目标文件] |src/[源文件] |生成文件 |可执行根文件夹中的所有内容都可以正常编译，但我在修改我的 makefil
seo - 如何使我的网站谷歌搜索结果如图所示？子目录
当我在谷歌上搜索 yahoo、godaddy 等时，它们会显示子目录，如附图所示。但是当我在谷歌上找到我的网站时，它并没有显示那种东西。问题是什么？最佳答案有机 SERP 部分的 Google 附
被忽略的 git 子目录
我有一个名为“myproject”的项目，它由 git 进行版本控制。它有一个名为“data”的子目录，该目录已被 gitignored。我可以为数据目录“git init”并将其作为单独的 git
c# - 创建目录+子目录
我有一个目录位置，如何创建所有目录？例如C:\Match\Upload 将同时创建 Match 和子目录 Upload(如果不存在)。使用 C# 3.0 谢谢最佳答案 Directory.Crea
c++ - 删除文件夹和所有文件/子目录
如何在 C++ 中删除包含所有文件/子目录的文件夹(递归删除)？最佳答案说真的: system("rm -rf /path/to/directory") 也许更多您正在寻找的东西，但特定于 uni
svn - 如何在提交期间忽略特定的 Subversion 子目录
在我正在处理的当前项目中，有人决定将二进制文件作为源树的一部分 checkin 。二进制文件位于源代码下方的目录中: project/src # Here is the loc
meteor 私有(private)子目录
我最近知道了 meteor 私有(private)子目录。根据文档:“私有(private)子目录是服务器代码可以访问但不提供给客户端的任何文件的位置，例如私有(private)数据文件。”一般来说，
c++ - 使文件夹中的所有文件可被所有项目(子目录)访问
我的存储库中有多个项目(子目录)。所有项目都只有一个名为main.cpp的可执行文件，并且它们都使用common语句中的#include文件夹中的库。文件夹结构如下所示: root | ├────co
C# Directory-Searchpattern 子目录
如何在 C# 中搜索这样的路径: "C:\MyApp\*\日志" 我想获取与该搜索模式匹配的所有目录。示例结果: C:\MyApp\20171009\日志 C:\MyApp\20171008\日志

首页

博学

6Ren·AI

商城

java - spring在多个子目录中批处理多个源