gpt4 book ai didi

python - 我可以在分区的配置单元表上使用 mrjob python 库吗?

转载 作者:可可西里 更新时间:2023-11-01 14:41:08 25 4
gpt4 key购买 nike

我有一个 hadoop 服务器/集群的用户访问权限,其中包含的数据仅存储在 hive (avro) 的分区表/文件中。我想知道我是否可以在这些表上使用 python mrjob 执行 mapreduce?到目前为止,我一直在本地对存储在 CDH5 上的文本文件测试 mrjob,开发的简易性给我留下了深刻的印象。

经过一番研究,我发现有一个名为 HCatalog 的库,但据我所知,它不适用于 python(仅适用于 Java)。不幸的是,我没有太多时间学习 Java,我想坚持使用 Python。

你知道在 hive 存储的数据上运行 mrjob 的方法吗?

如果这是不可能的,有没有办法将 python 编写的 mapreduce 代码流式传输到配置单元? (我宁愿不上传mapreduce python文件到hive)

最佳答案

正如 Alex 所说,目前 Mr.Job 不适用于 avro 格式的文件。然而,有一种方法可以直接在配置单元表上执行 python 代码(不需要 Mr.Job,不幸的是失去了灵 active )。最终,我设法通过执行“ADD FILE mapper.py”并使用 TRANSFORM ... USING .... 执行 SELECT 子句,将 python 文件作为资源添加到 hive,将映射器的结果存储在单独的表中。 Hive 查询示例:

插入覆盖表 u_data_new
选择
转换(用户标识、电影标识、评级、unixtime)
使用'python weekday_mapper.py'
AS (userid, movieid, rating, weekday)
来自 u_data;

完整示例可在此处(底部)获得:link

关于python - 我可以在分区的配置单元表上使用 mrjob python 库吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25889942/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com