hadoop - 表中不同值类型的Hive CSV Serde格式-6ren

hadoop - 表中不同值类型的Hive CSV Serde格式

转载作者：行者123 更新时间：2023-12-02 20:44:11

26

4

CSV文件包含以下混乱格式的用户调查，并包含许多不同的数据类型，例如字符串，整数，范围。

China, 20-30, Male, xxxxx, yyyyy, Mobile Developer; zzzz-vvvv; "$40,000-50,000", Consulting

Japan, 30-40, Female, xxxxx, , Software Developer, zzzz-vvvv; "$40,000-50,000", Development

. . . . .

以下代码用于将CSV文件转换为Hive表，并为每列正确分配各自的值。

add jar /home/cloudera/Desktop/project/csv-serde-1.1.2.jar;
drop table if exists 2016table;

create external table 2016table
(
  Country string,
  Age string,
  Gender string,
  Random1 string,
  Random2 string,
  Occupation string,
  Random3 string,
  Salary string,
  Industry string,
 )

 ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
 WITH SERDEPROPERTIES (
  "separatorChar" = ",",
  "quoteChar"     = "\"",
  "escapeChar"    = "\\"
 )     
 STORED AS TEXTFILE;

 LOAD DATA LOCAL INPATH "/home/cloudera/survey/2016edited.csv" INTO TABLE 2016table;

这段代码运行良好，每列都分别分配了它们的值。所有选择查询都给出真实的结果。
现在，当尝试从上表(“2016table”)创建另一个表(“2016sort”)时，该表的列数较少，这些值将混合在不同的列中。
用于此的代码

DROP TABLE IF EXISTS 2016sort;

CREATE EXTERNAL TABLE 2016sort (
 country1 string,
 age1 string,
 gender1 string,
 occupation1 string,
 salary1 string,
)

 ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
 WITH SERDEPROPERTIES (
 "separatorChar" = ",",
 "quoteChar"     = "\"",
 "escapeChar"    = "\\" 
)     
STORED AS TEXTFILE;

insert into table 2016sort select country,age,gender,occupation,salary from 2016table;

但是这段代码弄乱了值。
2016sort的SELECT性别1给出了性别列的混合值以及其他列的值。
谁能帮我找出缺失的内容!

最佳答案

您无需使用csv serde创建“2016sort”。
因为，它不会从.csv文件加载。您将通过读取第一个'2016table'来插入其中，该表已经使用csv serde从.csv文件加载自身。

并且从'2016table'查询，将给出纯文本作为结果，而不是用引号引起来。

关于hadoop - 表中不同值类型的Hive CSV Serde格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48695148/

26

4

0

文章推荐： spring-boot - 如何防止line在build.gradle中运行？

文章推荐： docker - 如何从jenkinsfile构建多个docker容器？

文章推荐： hadoop - Netezza Squoop选项文件-如何在代码升级中进行处理

rust - Serde:使用容器＃[serde(default)]，但带有一些必填字段
我有一个使用the #[serde(default)] container attribute的结构。但是，应该有一个字段是必需的(如果输入数据中不存在该字段，则反序列化器应该出错，而不是退回到默认
serialization - 使用#[serde(untagged)] 和#[serde(with)] 的组合反序列化枚举
我正在尝试使用 actix-web 服务器作为通往小型堆栈的网关，以保证堆栈内部的数据格式严格，同时为用户提供一些自由。为此，我想将 JSON 字符串反序列化为结构，然后对其进行验证、再次序列化并将
java - Hive 在创建表 "Cannot validate serde: com.cloudera.hive.serde.JSONSerDe"时抛出错误
正在使用 apache-hive-0.13.1。在创建表配置单元时抛出如下错误 FAILED: Execution Error, return code 1 from org.apache.hadoo
rust - Serde 结构版本检查
我想添加一个简单的版本方案 + 检查我的结构: #[derive(Serialize, Deserialize)] struct Versioned { version: u32, o
rust - serde - 多个默认值组合在一起？
我正在尝试使用 Serde 加载一个 Toml 文件，它包含多个 bool 值，如果在文本文件中找不到，我想将它们全部默认为 false。我目前的实现是: #[derive(serde::Deser
serialization - Serde 使用远程对象的代理类型序列化
如何使用 Serde 为远程类型创建序列化程序代理对象？这是一个最小的例子(playground): use serde; // 1.0.104 use serde_json; // 1.0.48 s
json - Serde JSON反序列化枚举
我有一个枚举: #[derive(Serialize, Deserialize)] enum Action { Join, Leave, } 和一个结构: #[derive(Seria
json - Serde JSON反序列化枚举
我有一个枚举: #[derive(Serialize, Deserialize)] enum Action { Join, Leave, } 和一个结构: #[derive(Seria
Rust serde 反序列化混合数组
在 Rust 中，我从 websocket 接收数据。为简单起见，它看起来像这样: [1, {"a": ["1.2345", 5, "9.8765"]}] 我从 websocket 获得的字符串确实
rust - serde:加速自定义枚举反序列化
我的程序解析足够大的 json 文档(30MB)，在 CPU 较慢的机器上需要 70 毫秒，我想加快这个过程，我发现 27% 的解析发生在我的 foo_document_type_deserializ
正则表达式 serde 读取配置单元中的日志文件
我正在尝试在配置单元中创建一个正则表达式 serde 来读取一些日志文件，但是在让它工作时遇到了问题... 日志文件看起来像这样...... 14.196.202.16:9123 11329 2
JSON Serde - 映射列名
我正在使用映射列的 JSON-Serde 功能来重命名我的 json 文档中的列 'Customer ID' -> 'customer_id。我使用映射函数的原因是因为 HQL 不允许在 CREATE
hadoop - 用于配置单元中简单序列文件的 serde
我有一个包含 Text 键和 DoubleWritable 值的序列文件。当我将文件加载为外部表时 Create external table t (id String, data Double) S
rust - 如何使用 Serde 只允许一个字段或另一个字段？
假设我有这个结构: use serde::{Serialize, Deserialize}; #[derive(Deserialize)] struct MyStruct { field_1:
rust - serde/bincode 如何序列化字节数组？
这段代码完全按照我的意愿序列化了一个 32 字节的数组: #[derive(Debug, Clone, Serialize, Deserialize, PartialEq, Eq, PartialOr
rust - Serde::Deserialize 的实现不够通用
我正在使用 event_emmiter_rs用于我的应用程序中的事件处理。该库允许您订阅带有回调的事件并触发这些事件。事件采用 (strings, value) 的形式，回调采用接受值参数的闭包形式。
rust - 我可以用 serde 序列化枚举的定义吗？
给定这个枚举定义: #[repr(u8)] #[derive(Debug, Serialize)] pub enum AnimalType { #[serde(rename = "cat")]
rust - 如何使用 Serde 序列化具有顶级键的结构？
我目前正在使用 Rocket 开发一个 Web API，它使用以下结构进行错误响应: #[derive(Serialize, Deserialize)] pub struct ErrorRespons
regex - 使用 serde 正则表达式在配置单元表中加载日志数据为空
我想解析这个日志样本 May 3 11:52:54 cdh-dn03 init: tty (/dev/tty6) main process (1208) killed by TERM signal M
用于访问登录 hive serde 的正则表达式
我想从访问日志中提取(ip、requestUrl、timeStamp)以加载到 hive 数据库。访问日志中的一行如下。 66.249.68.6 - - [14/Jan/2012:06:25:03 -

首页

博学

6Ren·AI

商城

hadoop - 表中不同值类型的Hive CSV Serde格式