java - 是否有在 Spring Boot 上下文中查询巨大 CSV 的最佳实践？-6ren

java - 是否有在 Spring Boot 上下文中查询巨大 CSV 的最佳实践？

转载作者：行者123 更新时间：2023-12-02 01:01:34

26

4

我在一家知名公司工作，参与一个项目，该项目应该与其他系统集成，每小时生成一个 27Gb 的 csv。目标是查询这些文件而不导入em(主要问题是官僚主义，如果某些数据发生变化，没有人愿意承担责任)。

此文件的主要过滤器可以按日期完成，最终用户必须插入范围开始结束日期。之后可以通过几个字符串进行过滤。

上下文: Spring Boot 微服务
服务器: xeon 处理器 24 核 256GB RAM
文件系统:从外部服务器安装的 NFS
测试数据:1000个文件，每个1Gb

为了提高性能，我按日期对文件进行索引，在每个文件名上写入包含的范围，并制作类似 yyyy/mm/dd 的文件夹结构。对于以下每个测试，第一步是创建将读取的原始文件路径列表。

研究将读取所有文件

Spring 批处理 - 缓冲读取器并解析为对象:12,097 秒
普通 java - 线程池、缓冲读取器并解析为对象:10,882 秒
带有正则表达式和并行的 Linux egrep 从 java 运行并解析为对象:7,701 秒

最脏的也是禁食。我想避免它，因为安全部门警告我要对输入数据进行所有检查以防止 shell 注入(inject)。

谷歌搜索我发现mariadb CONNECT引擎也可以指向巨大的csv，所以现在我将继续用研究感兴趣的文件创建临时表，不好的部分是我必须做由于日期可能不同，因此每个查询对应一个表。

第一年，我们预计同一时间不会超过 5 项平行研究，平均范围为 3 周。此查询将异步完成。

你知道有什么可以帮助我的吗？不仅是为了速度，而且是一个很好的应用实践。非常感谢大家。

最佳答案

回答您的问题:

没有。 There are no best practices 。而且，据我所知，没有普遍适用的“良好”实践。

但我确实有一些一般性建议。如果您允许官僚主义和(在较小程度上)安全法令等考虑因素来决定您的技术解决方案，那么您最终可能会得到不合格的解决方案；即运行和持续运行缓慢或成本高昂的解决方案。 (如果“他们”希望速度快，那么“他们”就不应该给你设置障碍。)

我认为我们无法为您的问题提供简单的解决方案，但我可以对您的分析说一些话。

<小时/>

您提到了 grep 解决方案。

"I want avoid it because security department warned me about all checks to make on input data to prevent shell injection."

解决这个问题的方法很简单:不要使用中间 shell。危险的注入(inject)攻击将通过 shell 欺骗而不是 grep 进行。 Java 的 ProcessBuilder 不使用 shell，除非您明确使用 shell。 grep 程序本身只能读取其参数中指定的文件，并写入标准输出和标准错误。

<小时/>

您谈到了总体架构:

"The target is query these files without import them (the main problem is bureaucracy, nobody want responsibility if some data change)."

我不明白这里的反对意见。我们知道 CSV 文件将会发生变化。您每小时都会收到一个新的 27GB CSV 文件!

如果反对意见是 CSV 文件的格式将发生变化，那么这会影响您有效查询它们的能力。但只要发挥一点聪明才智，您就可以检测格式的变化并动态调整摄取过程。

<小时/>

"We're expecting not more than 5 parallel researches in same time, with an average of 3 weeks of range."

如果您还没有这样做，您需要进行一些分析，看看您提出的解决方案是否可行。估计需要扫描多少 CSV 数据才能满足典型查询。将该值乘以(例如)24 小时内执行的查询数量。然后将其与 NFS 服务器满足批量读取的能力进行比较。然后假设并行运行给定数量的查询，重新进行计算。

考虑一下如果您的(上述)期望是错误的，会发生什么。你只需要几个“白痴”用户做不合理的事情......

拥有 24 核服务器来执行查询是一回事，但 NFS 服务器还需要能够足够快地提供数据。您可以通过 NFS 调整来改进(例如，通过调整 block 大小、NFS 守护进程的数量、使用 FS-Cache)，但最终的瓶颈将是将数据从 NFS 服务器的磁盘上获取并通过网络传输到您的服务器。请记住，当您的应用程序执行其操作时，可能有其他服务器“攻击”NFS 服务器。

关于java - 是否有在 Spring Boot 上下文中查询巨大 CSV 的最佳实践？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60571409/

26

4

0

文章推荐： java - 在 java 主方法之外初始化一个对象

文章推荐： twitter-bootstrap-3 - Bootstrap 3 - 带页码的轮播

文章推荐： vbscript - 使用 NRPE 执行远程脚本

文章推荐： java - 具有多个 userDetailServices 的 Spring security

C# 使用 block 上下文，在另一个使用 block 上下文
出现以下错误 Network access for Distributed Transaction Manager (MSDTC) has been disabled. Please enable D
c# - CLR 无法从 COM 上下文 0x3b2d70 转换到 COM 上下文
在调试应用程序时出现以下错误。 The CLR has been unable to transition from COM context 0x3b2d70 to COM context 0x3b2
google-app-engine - Google App Engine 上下文。上下文与 gorilla 上下文
在 GAE Go 中，为了记录，我们需要使用 appengine.NewContext(r) 创建一个新的上下文，它返回 context.Context。如何使用此上下文在请求范围内设置/获取变量？
javascript - 如何使用 Puppeteer 或 Chrome 控制台以编程方式切换 JS 上下文(到不同域的 iframe 上下文)
我想使用 Puppeteer 从放置在页面上 iframe 内的选择器中获取数据，该页面在与其父框架域不同的域上运行。因此，我不是任何域的所有者 - 无法使用 frame.postMessage。试
java - Appium 不显示 webview 上下文，它只显示 native 应用程序上下文。如何获取 webview 上下文？
我正在尝试获取可用的应用程序上下文并想切换到 webview 上下文，但 appium 仅获取 Navive App。应用程序还启用了 WebView。 Appium 版本:1.10.1 Chrom
flutter - 没有名称为 'nullOk' 的命名参数。上下文 != null ? Localizations.localeOf(上下文，nullOk : true) : null,
这个问题在这里已经有了答案: How to fix this nullOk error when using the flutter_svg package? (7 个回答) 7 个月前关闭。当我尝
ios - Swift 3 核心数据 - 实体(上下文 :) vs Entity(entity: Location. 实体()，insertInto:上下文)
我观看了关于 Core Data 的 2016 WWDC 视频并查看了各种教程。我见过使用 Core Data Framework 创建对象以持久保存到 managedObjectContext 中的
javascript函数和this关键字，上下文
这是代码 obj = { a: 'some value'; m: function(){ alert(this.a); } } obj.m(); 结果是'som
Jquery "this"上下文
我正在尝试做类似的事情 $(".className").click(function() { $(this).(".anotherClass").css("z-index","1");
JavaScript 上下文
var User = { Name: "Some Name", Age: 26, Show: function() { alert("Age= "+this.Age)}; }; fun
ReactJS 上下文 > 从状态函数引用最新状态值
我目前正在使用我见过的常见 Context 模式，它允许子组件通过传递修饰函数来更新父组件的状态(即 Provider)通过共享的 Context。我遇到的问题是，修改函数只引用原始状态，不引用最新
FlowType react 上下文
有没有办法让 React Context类型安全与流类型？例如: Button.contextTypes = { color: React.PropTypes.string }; 最佳答案不幸
每个功能的 Behat 上下文
我想知道是否有一种方法可以为不同的功能使用不同的上下文类。我希望有一个功能使用 MinkExtensions 进行浏览器测试，另一个功能使用和 HTTP 客户端(如 Guzzle)进行 API 测试
未设置 Kubernetes 上下文
我有这个配置文件 apiVersion: v1 clusters: - cluster: server: [REDACTED] // IP of my cluster name: stag
c - 我需要了解编译器如何解释＆tcb->上下文
我在实现非抢先式调度时遇到了用于初始化TCB的代码。 typedef struct TCB_t { struct TCB_t *next; struct TCB_t
匿名函数中的 JavaScript 上下文
我想将一个函数设置为数组中每个元素的属性，但使用不同的参数调用它。我想我会使用匿名函数来解决它: for ( var i = 0; i < object_count; i++ ) { obje
javascript - 在方法中丢失对象 "this"上下文
这个问题已经有答案了: How to access the correct `this` inside a callback (15 个回答) 已关闭 7 年前。我正在做一些练习，但我在管道方法中丢
Java -> 上下文，需要表达式吗？
我正在尝试通过 Java 和 Android Studio 学习和制作 Android 应用程序。我对Java的了解程度是两年前几个小时的youtube学习和大学基础类(class)。不过我确实知道如
java - 如何解决(上下文: this)
我在(这个)上遇到了问题。错误ImageView无法应用。我在 fragment 类中执行此代码。 ViewFlipper v_flipper; @Nullable @Override public
控制台中的 openGL 上下文
我想使用 openGL 的某些功能，但与渲染视觉内容无关。有没有办法在没有任何依赖性的情况下创建它(不是对 Windows，也不是某些包[SDL，SFML，GLUT])？只允许使用没有外部库的库，就像

首页

博学

6Ren·AI

商城

java - 是否有在 Spring Boot 上下文中查询巨大 CSV 的最佳实践？