gpt4 book ai didi

csv - 在 Hue 中上传/导入 .csv - 指定正确的分隔符等

转载 作者:可可西里 更新时间:2023-11-01 15:10:25 25 4
gpt4 key购买 nike

我正在尝试上传我在 Kaggle.com/datasets 上找到的一个有趣的数据集,该数据集包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是在此处找到的文件“Questions.csv”:https://www.kaggle.com/stackoverflow/statsquestions)到Cloudera 的 Hue 让我可以使用 Hive 来查询数据。

但是,我在选择分隔符以正确上传 .csv 时遇到了问题。我没有看到选择文本限定符、转义字符等的地方。

我在从以下位置下载的 Oracle VirtualBox VM Linux 机器上:https://www.virtualbox.org/wiki/Downloads

我正在使用 Hadoop 的 Cloudera 发行版来访问 Hue:https://www.cloudera.com/downloads/quickstart_vms/5-8.html我专门在 Hue 上使用 Metastore Manager 来尝试上传 Questions.csv 数据文件。

如能提供任何有关上传/导入 .csv 的帮助,我们将不胜感激。

最佳答案

你可以先用这种参数创建一个表:

CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable 中有关 Hive 表创建的更多详细信息

然后,您必须将 csv 文件上传到 hdfs 文件夹中并使用:

LOAD DATA INPATH '/tmp/myCsvFile' 
OVERWRITE INTO TABLE databaseXX.tableXX;

我发现这是使用 Hue 将 csv 文件转换为表格的最简单方法。

关于csv - 在 Hue 中上传/导入 .csv - 指定正确的分隔符等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43312069/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com