作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将本地系统中存在的平面文件加载到HDFS存储中。
实际上,我们有GB的数据要上传到hadoop内部表中。
我们使用传统的过程来加载数据,例如从文件中读取数据并拆分成小块,然后使用来自python的配置单元查询将每个块加载到内部表中。此过程需要花费数小时才能加载到表中。
我需要一种有效的方法,可以减少从文件到hadoop表中加载数据的时间。在谷歌搜索时,我发现我们可以将文件上传到hdfs存储,然后从那里可以将数据加载到表中。但是我将不得不使用python上传文件,以便可以将其自动化。
谁能帮我找出一个好的方法。
最佳答案
您需要处理文件到hadoop FS,而不是在python上执行。为了将数据加载到hadoop FS中,可以使用hadoop shellhadoop fs -copyFromLocal <local directory>/file.csv <hadoop directory>
您可以使用subprocess
在python中触发此命令
import subprocess
proc = subprocess.Popen(['hdfs', 'dfs', '-copyFromLocal', '<local directory>/file.csv', '<hadoop directory>'], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
s_output, s_err = proc.communicate()
s_return = proc.returncode
将文件放入hadoop文件系统后,您可以创建一个配置单元外部表,在文件顶部定义一个架构。
create external table table_name(
col1 string,
col2 string,
...
...
) row format delimited
fields terminated by ','
location '<hadoop directory>'
接下来,当您从外部表读取数据时,执行速度会更快。
关于python - 有没有办法使用python脚本将特定的平面文件(.txt或.csv)提取到HDFS中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63077072/
我是一名优秀的程序员,十分优秀!