csv - 使用 Trino(以前称为 PrestoDB)将非 varchar 数据导出到 CSV 表-6ren

csv - 使用 Trino(以前称为 PrestoDB)将非 varchar 数据导出到 CSV 表

转载作者：行者123 更新时间：2023-12-02 18:51:21

36

4

我正在研究一些基准测试，需要比较 ORC、Parquet 和 CSV 格式。我已将 TPC/H (SF1000) 导出到基于 ORC 的表。当我想将它导出到 Parquet 时，我可以运行:

CREATE TABLE hive.tpch_sf1_parquet.region
  WITH (format = 'parquet')
  AS SELECT * FROM hive.tpch_sf1_orc.region

当我尝试使用 CSV 的类似方法时，出现错误 Hive CSV storage format only supports VARCHAR (unbounded)。我假设它会将其他数据类型(即 bigint)转换为文本并将列格式存储在 Hive 元数据中。

我可以使用 trino --server trino:8080 --catalog hive --schema tpch_sf1_orc --output-format=CSV --execute 'SELECT * FROM nation 将数据导出到 CSV，但是然后它被发送到一个文件。虽然这适用于 SF1，但很快就无法用于 SF1000 比例因子。另一个缺点是我的 Hive 元存储没有适当的元数据(尽管如果没有其他方法我可以手动修补它)。

有人知道如何使用 Hive 将我的 ORC/Parquet 数据转换为 CSV 吗？

最佳答案

在 Trino Hive 连接器中，CSV 表只能包含 varchar 列。

创建表时需要将导出的列转换为varchar

CREATE TABLE region_csv
WITH (format='CSV')
AS SELECT CAST(regionkey AS varchar), CAST(name AS varchar), CAST(comment AS varchar)
FROM region_orc

请注意，您需要相应地更新基准查询，例如通过应用反向转换。

关于csv - 使用 Trino(以前称为 PrestoDB)将非 varchar 数据导出到 CSV 表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66714596/

36

4

0

文章推荐： javascript - 无法访问 Node.js 中的其他文件

文章推荐： python - Pandas:按时钟时间计算平均值和标准差

javascript - Firestore 分页 - 以前
我是 firebase 的新手，我正在尝试分页查询。我喜欢有一个“下一个”和“上一个”按钮。我的下一个按钮工作正常，我的问题是单击上一个引用:https://firebase.google.com/
php - 创建新的、以前 undefined variable 的函数
抱歉，标题这么蹩脚，但我只是不知道该放什么，希望你能理解。另外，我不知道以前是否有人问过类似的问题，因为我不知道合适的关键字 - 因此也无法用谷歌搜索。基本上...在查看preg_match_all
c# - 以编程方式 checkout 以前 checkin 的文件版本
我想在 TFS 中 check out 一个检入文件的先前版本。我可以轻松获得特定文件的变更集 ID 列表，但无法弄清楚如何 checkout 以前的版本。我目前的代码: var workspace
java - 以前 Java 版本中 Java 运行时保留注释的兼容性
我想使用 @FunctionalInterface来 self 代码中的 Java 8，但我希望能够将生成的类文件与 Java 6 一起使用。我认为我应该将源版本设为 1.8 , 目标版本为 1.6
homebrew - 如何安装专为不同(以前)版本的 macOS 设计的 Homebrew 瓶
自从 versions 被删除以来，我一直无法找到安装以前版本软件的方法。命令并点击 Homebrew。我在 2008 Mac Pro (3,1) 上运行 macOS 10.14.3 (Mojave)
iphone - 将 iPod 支持添加到(以前)仅限 iPhone 的应用程序
当我开始当前的项目时，App Store 中已经有一个应用程序。此应用程序仅适用于 iPhone。我的第一个任务是测试和构建一个也可以在 iPod Touch 上运行的版本。大约 3 周前，App
git - 从 GitHub 上的(以前 fork 的) repo 中删除 fork repo 消息？
我在 GitHub 上有一个曾经是 fork 的 repo，但现在不是了，因为我已经删除了原始项目的任何痕迹并开始了一个同名的新项目。但是，GitHub 仍然表示该项目是 fork 的。有什么方法可

首页

博学

6Ren·AI

商城

csv - 使用 Trino(以前称为 PrestoDB)将非 varchar 数据导出到 CSV 表