python - 如何使用 Cloud composer 将大数据从 Postgres 导出到 S3？-6ren

python - 如何使用 Cloud composer 将大数据从 Postgres 导出到 S3？

转载作者：行者123 更新时间：2023-12-04 04:18:45

我一直在使用 Postgres 到 S3 运算符将数据从 Postgres 加载到 S3。但是最近，我不得不导出一个非常大的表，而我的 Airflow composer 失败了，没有任何日志，这可能是因为我们正在使用 Python 的 tempfile 模块的 NamedTemporaryFile 函数来创建一个临时文件，并且我们正在使用这个临时文件加载到 S3 .由于我们使用的是 Composer，这将被加载到 Composer 的本地内存中，并且由于文件的大小非常大，所以它会失败。

引用这里:https://cloud.google.com/composer/docs/how-to/using/troubleshooting-dags#task_fails_without_emitting_logs

我确实检查了 RedshiftToS3 运算符，因为它也使用了 Postgres Hook ，并且它有几个可以轻松加载大文件的卸载选项，但我意识到 Redshift 和 Postgres 之间没有一对一的对应关系。所以那是不可能的。有什么办法可以拆分我的 Postgres 查询吗？现在我正在执行 SELECT * FROM TABLENAME 另外，我没有关于该表的任何信息。

我也遇到过这个类似的运算符:https://airflow.apache.org/docs/stable/_modules/airflow/contrib/operators/sql_to_gcs.html

这里有一个参数approx_max_file_size_bytes:

This operator supports the ability to split large table dumps into multiple files (see notes in the filename param docs above). This param allows developers to specify the file size of the splits.

我从代码中了解到，当大小超过给定限制时，他们正在创建一个新的临时文件，那么他们是否将文件拆分为多个临时文件，然后分别上传？

编辑:我将再次准确解释我要做什么。目前，Postgres 到 S3 操作符创建一个临时文件并将游标返回的所有结果写入此文件，这会导致内存问题。所以我在想的是，我可以添加一个 max_file_size 限制，对于游标中的每一行，我会将结果写入我们的临时文件，如果我们的临时文件的大小超过我们设置的 max_file_size 限制，我们将写入我们的内容文件到 S3，然后刷新或删除该文件，然后创建一个新的临时文件，并将光标的下一行写入该文件，并将该文件也上传到 S3。我不确定如何像那样修改运算符？

最佳答案

正如您已经发现的那样，这是因为您正在为表中的每一行构建一个字典，当您的表中有很多行时，您的机器内存就会耗尽。

你已经真正回答了你自己的问题:只写 a 直到文件达到一定大小，然后将文件推送到 S3。或者，您可以将文件保存在磁盘上并每隔 x 行刷新一次字典对象，但在这种情况下，您的文件在磁盘上而不是在内存中可能会变得非常大。

关于python - 如何使用 Cloud composer 将大数据从 Postgres 导出到 S3？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59980922/

文章推荐： azure-devops - Azure DevOps 多阶段管道等待批准

文章推荐： asp.net-core - Blazor - WebAssembly ASP.NET Core 托管模型

文章推荐： angular - Quill.register 未被识别为函数

java - s = s + s 和 s += s 之间的区别
这个问题在这里已经有了答案: Why don't Java's +=, -=, *=, /= compound assignment operators require casting? (11 个
c# - ORA-21500 : internal error code, 参数 : [%s], [%s]、[%s]、[%s]、[%s]、[%s]、[%s]、[%s]
我搜索了很多，但没有一个链接能帮助我解决这个问题。我得到了 ORA-21500: internal error code, arguments: [%s], [%s], [%s], [%s], [%s
regex - 正则表达式中的 `(\S.*\S)` 和 `^\s*(.*)\s*$` 有什么区别？
我正在做 RegexOne 正则表达式教程，它有一个 question关于编写正则表达式以删除不必要的空格。教程中提供的解决方案是 We can just skip all the starting
javascript - |\s 的目的/作用是什么？在 ([\s\S]+|\s?)
([\s\S]+|\s?) 中 |\s? 的目的或作用是什么？如果没有它，表达式会不会与 ([\s\S]+) 相同？最佳答案这不是完全相同的。 ([\s\S]+|\s?) 会匹配空字符串，而 ([
java - 这个正则表达式有一组还是两组？ "^\\s*(.*?)\\s+-\\s+' (.* )'\\s*$"
这个正则表达式有一组还是两组？我正在尝试使用第二组访问 bookTitle 但出现错误: Pattern pattern = Pattern.compile("^\\s*(.*?)\\s+-\\s+
c - 这个迭代如何工作 : for(++s ; *s;++s)
在 C 中给定一个字符串指针 s，下面的迭代会做什么？即它以什么方式遍历字符串？ for (++s ; *s; ++s); 最佳答案 for (++s ; *s;++s) 表示将指针 s 递增到字符
javascript - 正则表达式 '\s+-\s*|\s*-\s+' 无法正常工作
我正在用一个 node.js 应用程序解析一个大列表并有这段代码 sizeCode = dbfr.CN_DESC.split('\s+-\s*|\s*-\s+') 这似乎不起作用，因为它返回了 [ '
c - 查找字符串结尾 : *s++ VS *s then s++
我正在编写一个简单的字符串连接程序。该程序按照我发布的方式运行。但是，我首先使用以下代码编写它来查找字符串的结尾: while (*s++) ; 但是，这个方法并没有奏效。我传递给它的字符串
java - 正则表达式 (?<=[\\S])[\\S]*\\s* 的作用是什么？
这个问题已经有答案了: What does (?和aramchand来自Mohandas Karamchand G 因此，在使用这些匹配来分割字符串后，您最终会得到 {"M", "K", "G"} 注
java - 映射到列表
~~我正在尝试转换 Map到 List使用 lambda。本质上，我想将键和值与 '=' 连接起来之间。这看起来微不足道，但我找不到如何去做。例如 Map map = new HashMap<>();~~

C 指针 : difference between while(*s++) { ;} and while(*s) { s++;}
我正在经历 K & R，并且在递增指针时遇到困难。练习 5.3(第 107 页)要求您使用指针编写一个 strcat 函数。在伪代码中，该函数执行以下操作: 将 2 个字符串作为输入。找到字符串

c++ - 在 S s = S() 中是否保证不会创建临时文件？
在下面的代码中，pS 和 s.pS 在最后一行是否保证相等？也就是说，在语句S s = S();中，是否可以确定不会构造一个临时的S？ #include using namespace std; s

c# - 关于将类型 'int' 隐式转换为 'char' ，为什么 `s[i] += s[j]` 和 `s[i] = s[i]+s[j] ` 不同
演示示例代码: public void ReverseString(char[] s) { for(int i = 0, j = s.Length-1; i < j; i++, j--){

PowerShell New-TimeSpan 友好地显示为天(s)小时(s)分钟(s)秒(s)
我一直在寻找类似于 .NET examples 中的示例的 PowerShell 脚本.取一个 New-TimeSpan 并显示为 1 天 2 小时 3 分钟 4 秒。排除其零的地方，在需要的地方添加

python - 对于 string_list : s = func(s) can't change string s 中的 s
def func(s): s = s + " is corrected" return s string_list = ["She", "He"] for s in string_li

python - 折叠和 (lambda s : "". join(s.split())) 或 (lambda s: s)
我是 python 的新手。当我在互联网上搜索 lambda 时。我在 lambda_functions 中找到了这个声明. processFunc = collapse and (lambda s:

regex - 如何为包含 "a"s、 "b"s 和 "c"s 但不超过 2 "b"s 和 3 "c"s 的所有字符串编写简洁的正则表达式
我最近开始学习正则表达式，并试图为上面的问题写一个正则表达式。如果限制只放在一个字母上(例如不超过 2 个“b”)，这并不困难。那么答案就是:a* c*(b|ε)a* c*(b|ε)a* c* 但是

python - npm 安装错误导入系统；打印 "%s.%s.%s"
当我运行 npm install 时出现以下错误，但我无法修复它。我试过:npm install -g windows-build-tools 也没有修复这个错误 ERR! configure

haskell - 在 Haskell 中将 "->"s 替换为 "→"s，将 "=>"s 替换为 "⇒"s 等等
有很多有趣的haskell网上可以找到片段。 This post可以在 this (awesome) Stack Overflow question 下找到. The author写道: discou

regex - 在Perl中，s/^\s +//和s/\s + $//有什么区别？
我知道以下三行代码旨在将字符串提取到$ value中并将其存储在$ header中。但是我不知道$value =~ s/^\s+//;和$value =~ s/\s+$//;之间有什么区别。 $val

行者123

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？

滴滴打车优惠券免费领取

全站热门文章

全网最适合入门的面向对象编程教程：56Python字符串与序列化-正则表达式和re模块应用

如何创建免费版本的ABP分离模块？

团队管理的两大入门心法

多Master节点的k8s集群部署-完整版

OpenAI发布适用于.NET库的稳定版本

Windows应急响应-QQ巨盗病毒

浏览器中生成OSS令牌|WebCryptoAPI

（系列五）.net8中使用Dapper搭建底层仓储连接数据库（附源码）

【VMwareVCF】使用SFTP服务器备份VCF核心组件的配置文件。

从零开始学机器学习——网络应用

首页

博学

6Ren·AI

商城

python - 如何使用 Cloud composer 将大数据从 Postgres 导出到 S3？