gpt4 book ai didi

apache-spark - 如何优化将 150GB 数据加载到配置单元表中?

转载 作者:可可西里 更新时间:2023-11-01 16:21:26 24 4
gpt4 key购买 nike

我在使用以下表属性的配置单元阶段表中有一个 150 GB 的文件

    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = "|",
"quoteChar" = "'",
"escapeChar" = "\\"
)
STORED AS TEXTFILE;

现在,当我将这些数据加载到我的主表中时,它在运行一小时后失败并出现 java 堆错误。我正在使用分区主表,数据中大约有 12000 个分区。为了加载数据,我使用简单的 hql:

    insert overwrite mainTable partition(date)
select * from stage table;

我也曾尝试将 map 内存增加到 15GB,但还是失败了。有什么办法可以优化这个吗?任何包含 spark 或 hive 的解决方案都可以。

最佳答案

你能检查以下内容吗:1) 尝试在/etc/hive/conf/hive-env.sh 中增加 hive-server2 的 HADOOP_HEAPSIZE2) 通过连接到主节点以反射(reflect)设置中的更改,使用以下命令重新启动 Hivesudo 停止 hive-hcatalog-serversudo 启动 hive-hcatalog-serversudo status hive-hcatalog-server

引用:https://aws.amazon.com/premiumsupport/knowledge-center/emr-hive-outofmemoryerror-heap-space/

关于apache-spark - 如何优化将 150GB 数据加载到配置单元表中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54432340/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com