amazon-web-services - Amazon AWS Athena HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split/Not valid Parquet file, parquet 文件使用 Athena 压缩为 gzip-6ren

amazon-web-services - Amazon AWS Athena HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split/Not valid Parquet file, parquet 文件使用 Athena 压缩为 gzip

转载作者：行者123 更新时间：2023-12-05 02:58:05

30

4

我正尝试在 Amazon Athena 上培养技能。我已经成功地使用 Athena 查询了 JSON 和 Apache Parquet 格式的数据。我现在要做的是对其添加压缩 (gzip)。

我的 JSON 数据:

{
    "id": 1,
    "prenom": "Firstname",
    "nom": "Lastname",
    "age": 23
}

然后，我使用 npm 模块将 JSON 转换为 Apache Parquet 格式:https://www.npmjs.com/package/parquetjs

最后，我将获得的 parquet 文件压缩为 GZIP 格式并将其放入我的 s3 存储桶中:test-athena-personnes。

我的雅典娜表:

CREATE EXTERNAL TABLE IF NOT EXISTS personnes (
    id INT,
    nom STRING,
    prenom STRING,
    age INT
) 
STORED AS PARQUET
LOCATION 's3://test-athena-personnes/'
tblproperties ("parquet.compress"="GZIP");

然后，为了测试它，我启动了一个非常简单的请求:Select * from personnes;

我收到错误信息:

HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://test-athena-personnes/personne1.parquet.gz (offset=0, length=257): Not valid Parquet file: s3://test-athena-personnes/personne1.parquet.gz expected magic number: [80, 65, 82, 49] got: [-75, 1, 0, 0]

有什么我没听懂或者我做得不好的地方吗？我可以在不使用 gzip 压缩的情况下请求 apache parquet 文件，但不能使用它。

提前致谢

最佳答案

Parquet文件由两部分组成[1] :

数据
元数据

当您尝试通过 Athena 读取此文件时，它会先尝试读取元数据，然后再读取实际数据。在您的情况下，您正在使用 Gzip 压缩 parquet 文件，当 Athena 尝试读取该文件时，它无法理解，因为元数据被压缩抽象化了。

因此，压缩 parquet 文件的理想方式是“在编写/创建 parquet 文件时”本身。因此，您需要在使用 parquetjs 生成文件时提及压缩代码。

关于amazon-web-services - Amazon AWS Athena HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split/Not valid Parquet file, parquet 文件使用 Athena 压缩为 gzip，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59371624/

30

4

0

文章推荐： python - 如何在 Python 中修正超平面的位置？

文章推荐： scala - 如何在 Spark 中将 Dataframe 的 String 列转换为 Struct

文章推荐： python - Python在文件行上实现滑动窗口

c - OpenAL/OpenAL 软件
OpenAL.org && 创意开发网站已关闭。我选择替代版本 OpenAL Soft .我很担心，因为在 OpenAL Soft 的二进制安装中我找不到 alut.h header 。 alut.h
安卓工作室 : open file operation failed (The open file operation failed to connect to the open and save panel service. )
我使用 Android Studio 已经有一段时间了，但有一天应用程序突然出错了。当我尝试单击我的目录以查找要导入或打开的文件时，应用程序变得异常缓慢并且根本没有响应。当我最终成功切换到存储我的文件
javascript - Firefox 4 : Dynamically opened window opens new tabs in old window (i. e. window.opener)
自 Firefox 4 以来，这似乎是一个奇怪的功能变化。在使用 window.open() 打开一个窗口后，当用鼠标中键单击打开的窗口中的链接时(或右键单击并选择“在新窗口中打开”选项卡') 导致链
ruby - Open::URI.open 返回什么？
我无法从 Open::URI 的 rdoc 中得知当我这样做时返回的是什么: result = open(url) URL 返回 XML，但我如何查看/解析 XML？最佳答案 open 返回一个 I
rs.open sql,conn,1,1与rs.open sql,conn,1.3还有rs.open sql,conn,3,2区别
经常开发asp但对于细致的说法，真实不太清楚，这里简单的介绍下。一般情况下读取数据都是用rs.open sql,conn,1,1 修改数据:rs.open sql,conn,1,3 删除
python - open() 和 path.open() 的区别
关于 pathlib 标准库中的模块，是 path.open() 方法只是内置 open() 的“包装器”功能？最佳答案如果您阅读了 source code的 pathlib.Path.open你
open-liberty - 如何更改 Open Liberty 运行时语言？
我想将 Open Liberty 运行时的语言更改为 en_US从 Eclipse IDE 中，但我不知道如何。也尝试使用 JVM 参数的首选项来设置它，但它没有用。 -Duser.language
python - PyCharm 认为函数 "open"没有参数 "opener"
这是我所拥有的: 参数“opener”未在可能的函数调用参数中列出。这是 PyCharm 错误还是其他原因？ PyCharm 2018.3.5 社区版，Windows 7 上的 Python 3.6.
java - Java中使用Neo4jGraph.open()或GraphFactory.open()访问远程Neo4j数据库
我正在使用 Tinkerpop 的 GraphFactory.open(Configuration 配置) Java 命令来访问 Neo4j 数据库。一个最低限度的工作示例是: Configurat
Python， 'open' 和 'with open' 之间的区别
这个问题在这里已经有了答案: What is the python "with" statement designed for? (11 个答案) 关闭 7 年前。我没有使用过 with 语句，但
python - 内置 open() 函数中 opener 参数的用途是什么？
我正在玩 python 3.5 中的 open 函数。我不明白 opener 参数(最后一个参数)在 open 函数中的用法。根据 python 文档:可以通过将可调用对象作为打开器传递来使用自定义打
linux - |删除 : can't open | grep: can't open grep
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 5 年前。 Improve th
python - OpenAL Python openal.audio 模块未找到
我试图用 Python 来做一些模拟 3D 声音的工作。我试图运行此代码(答案中提供):Python openAL 3D sound类似，两次都收到: ModuleNotFoundError: No
python - 错误或功能 : open and io. open 不可互换
我一直认为 open 和 io.open 可以互换。显然不是，如果我相信这个片段: import ctypes, io class POINT(ctypes.Structure): _fie
python - os.open vs open，使用什么
这个问题在这里已经有了答案: What's the difference between io.open() and os.open() on Python? (7 个答案) 关闭 9 年前。我是
c# - ChannelFactory.Open VS IClientChannel.Open
我正在尝试更好地了解 WCF 的一些内部工作原理。我已经做了相当多的环顾四周，但我无法找到关于 ChannelFactory.Open() 与 IClientChannel.Open() 相比的明确解
python - 使用 "open()"与 "with open()"读取文件
这个问题在这里已经有了答案: What is the python "with" statement designed for? (11 个答案) 关闭 7 年前。我知道有很多关于在 python
adodb.recordset.open(rs.open)方法参数详解
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章adodb.recordset.open(rs.open)方法参数详解由
javascript - 使用 window.open 但阻止使用 window.opener
不久前我遇到了一个interesting security hole Link 看起来足够无害，但有一个漏洞，因为默认情况下，正在打开的页面允许打开的页面通过 window.opener 回调到它。有
javascript - 折叠列表 : Keep open only the active one open
这在我的应用程序上运行良好，但由于某种原因我无法让它在这里正常工作。无论如何，我的问题是，当我单击列表标题时，我想关闭之前打开的列表标题并仅保留事件的列表标题打开。目前它会打开我点击的所有内容，但也会

首页

博学

6Ren·AI

商城

amazon-web-services - Amazon AWS Athena HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split/Not valid Parquet file, parquet 文件使用 Athena 压缩为 gzip