hadoop - 从在线数据集中将数据加载到 Hive 表后获取 NULL 值-6ren

hadoop - 从在线数据集中将数据加载到 Hive 表后获取 NULL 值

转载作者：行者123 更新时间：2023-12-02 20:15:10

25

4

我正在尝试使用色调接口(interface)将在线数据集中的数据加载到我的配置单元表中，但我得到的是 NULL 值。
这是我的数据集:
https://www.kaggle.com/psparks/instacart-market-basket-analysis?select=aisles.csv
这是我的代码:

CREATE TABLE IF NOT EXISTS AISLES (aisles_id INT, aisles STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
tblproperties("skip.header.line.count"="1");

这是我加载数据的方式:

LOAD DATA LOCAL INPATH '/home/hadoop/aisles.csv' INTO TABLE aisles;

我的解决方法，但不行:

FIELDS TERMINATED BY ','
FIELDS TERMINATED BY '\t'
FIELDS TERMINATED BY ''
FIELDS TERMINATED BY ' '

还尝试删除 LINES TERMINATED BY '\n'这是我下载数据的方式:

[hadoop@ip-172-31-76-58 ~]$ wget -O aisles.csv "https://www.kaggle.com/psparks/instacart-market-basket-analysis?select=aisles.csv"
--2020-10-14 23:50:06--  https://www.kaggle.com/psparks/instacart-market-basket-analysis?select=aisles.csv
Resolving www.kaggle.com (www.kaggle.com)... 35.244.233.98
Connecting to www.kaggle.com (www.kaggle.com)|35.244.233.98|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘aisles.csv’

我检查了我创建的表的位置，这就是它所说的；

hdfs://ip-172-31-76-58.ec2.internal:8020/user/hive/warehouse/aisles

我尝试浏览目录并查看文件的保存位置:

[hadoop@ip-172-31-76-58 ~]$ hdfs dfs -ls /user/hive/warehouse
Found 1 items
drwxrwxrwt   - arjiesaenz hadoop          0 2020-10-15 00:57 /user/hive/warehouse/aisles

所以，我试着像这样改变我的加载脚本；

LOAD DATA INPATH '/user/hive/warehouse/aisles.csv' INTO TABLE aisles;

但我得到一个错误:

Error while compiling statement: FAILED: SemanticException line 6:61 Invalid path ''/user/hive/warehouse/aisles.csv'': No files matching path hdfs://ip-172-31-76-58.ec2.internal:8020/user/hive/warehouse/aisles.csv

希望有人可以帮助我查明我的代码的问题。
谢谢。

最佳答案

我在我的 hadoop 集群上尝试了同样的方法。该代码工作没有任何问题。
这是我的执行片段:

    hive> CREATE TABLE IF NOT EXISTS AISLES (aisles_id INT, aisles STRING)
    > ROW FORMAT DELIMITED
    > FIELDS TERMINATED BY ','
    > LINES TERMINATED BY '\n'
    > STORED AS TEXTFILE
    > tblproperties("skip.header.line.count"="1");
OK
Time taken: 0.034 seconds
hive> load data inpath '/user/hirwuser1448/aisles.csv' into table AISLES;
Loading data to table revisit.aisles
Table revisit.aisles stats: [numFiles=1, totalSize=2603]
OK
Time taken: 0.183 seconds
hive> select * from AISLES limit 10;
OK
1       prepared soups salads
2       specialty cheeses
3       energy granola bars
4       instant foods
5       marinades meat preparation
6       other
7       packaged meat
8       bakery desserts
9       pasta sauce
10      kitchen supplies
Time taken: 0.038 seconds, Fetched: 10 row(s)

我认为您需要交叉检查您的数据集 aisles.csv 是否位于 hdfs 位置而不是存储在本地目录中。
问题在于您的加载 cmd。

LOAD DATA INPATH '/user/hive/warehouse/aisles.csv' INTO TABLE aisles;

我看到您尝试浏览目录以查看保存的文件。你在那个目录下看到 aisles.csv 了吗？如果文件在那里，那么您在加载 cmd 中给出了错误的路径，否则文件根本不存在。

关于hadoop - 从在线数据集中将数据加载到 Hive 表后获取 NULL 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64355042/

25

4

0

文章推荐： AngularJS 1.3 和 IE8

文章推荐： gridview - Yii2 数据方法帖子在 gridView 中不起作用

Excel(在线)+PowerBI刷新
我有一个 PowerBI Online 数据集，它是在 PowerBI 桌面中创建然后在线发布的。到目前为止，一切都很好。我通过 PowerBI pusblish 从 Excel 连接到数据集，按预
Perl 袖珍引用(在线)
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 2 年前。
python - 在线/流媒体学习的验证
我必须对一些太大而无法放入内存的数据训练分类模型，我正在使用 scikit learn 和 pandas 来进行分析。所以这是我的问题，如何在在线学习管道中使用验证来调整超参数？我使用带有chuck
android - 在线/离线图像管理策略
我正在开发一个应用程序，该应用程序将从 webservice 获取数据和图像并将其存储在设备中以供离线使用。同时，应用程序会将一些数据存储在 sqlite db 中，并将一些图像作为默认数据。这是应
javascript - 在线/流媒体MD5算法？
是否可以使用 FileReader API 和 onprogress 事件访问随 HTML5 传入的数据？如果是这样，是否有 MD5 或其他快速散列算法的“在线”版本，以便我可以在文件完全读取之前开
Linux:AWK 在线
希望任何人都可以帮助我更改下面的代码，我的临时文件包含以下代码: Temp=8.4* Humidity=70.4% 代替代码 Temp = 24 *C, Hum = 40 % 适用于以下脚本。我需
ios - 在线/离线数据管理
我必须创建一个功能类似于联系人应用程序的应用程序。您可以在客户的 iPhone 上添加一个联系人，它应该会上传到客户的 iPad 上。如果客户在他们的 iPad 上更新联系人，它应该会在他们的 iPh
GitLab:在线 rebase 后如何跳过或允许管道步骤
在 gitlab.com 上审查 merge 请求时，有时我必须在完成 merge 之前进行 rebase。在 gitlab 上按“Rebase”后，我有一个特定的管道步骤失败，因为它无法验证用户的
asp.net - 在线.Net编码
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
Azure 在线 SQL 数据库管理不可用
我正在尝试在 azure 上托管 SQL 服务器以与节点应用程序进行通信。我已经成功地完成了创建数据库服务器和数据库本身的过程。现在，我想编辑我的数据库结构。据我发现online ，应该有一种方法可以
QuickBooks 在线 API 身份验证失败
我在 Quickbooks Intuit 开发人员 API 中使用 Oauth 2 获得了访问 token 。范围是 com.intuit.quickbooks.accounting 我能够使用 Q
hosting - 在线 Perforce 存储库
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
在线 Angular Material 进度微调器
是否可以使Angular Material progress spinner与文本并大致与字符的大小一致地显示？我想要类似的东西: please wait 微调器仅与“请稍候”文本成行出现。这可
.net - 在线 .NET IDE？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
javascript - 在线 Javascript 代码评估工具
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
powershell - 如何确保域 Controller 在线？
我有一个每天运行的Powershell脚本。今天它失败了，因为我正在使用的域 Controller 不可用。在继续执行脚本的其余部分之前，我想确保可以连接到可用的DC。 $LdapServer = "
flash - 在线 Flash 游戏的轮询与套接字服务器
我想制作一款在线 Flash 游戏，它将具有社交功能，但游戏玩法将主要是单人游戏。例如，屏幕上不会同时出现两个玩家，社交互动将通过异步消息进行，不会有实时聊天或其他任何内容。大部分逻辑将发生在客户端中
java - OpenShift 在线 - 构建时内存不足
这几天我开始在线玩OpenShift。我部署了一个非常简单的“Hello World”Java 示例(1 行代码!)，没有任何依赖项(没有 Spring!)命令行是这样的: oc.exe new-a
sql - 在线 SQL 查询语法检查器
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
java - 在线 java 代码评估器找不到我的变量
所以我一直在网上学习Java(初学者)，并且我一直在尝试制作一个用于制作矩形的类文件。但是，我的在线 java 评估器指出它找不到实例变量。 This is the comment on it.我的代

首页

博学

6Ren·AI

商城

hadoop - 从在线数据集中将数据加载到 Hive 表后获取 NULL 值