regex - Hive Serde中特定分隔符字符串的正则表达式-6ren

regex - Hive Serde中特定分隔符字符串的正则表达式

转载作者：行者123 更新时间：2023-12-02 20:58:50

25

4

我使用serde使用定界符读取特定格式的数据。

我的数据的一行可能看起来像: key1 = value2 | key2 = value2 | key3 =“va，lues” ，我创建了以下配置单元表:

CREATE EXTERNAL TABLE(
field1 STRING,
field2 STRING,
field3 STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)",
  "output.format.string" = "%1$s %2$s %3$s"
)
STORED AS TEXTFILE;

我需要提取所有值，忽略所有配额(如果存在)。
结果看起来像

 value2  value2 va , lues

如何更改我的当前正则表达式的extractig值？

最佳答案

我目前可以提供2个选项，但没有一个是完美的。
顺便说一句，"output.format.string"已过时且无效。

1个

create external table mytable
(
    q1          string    
   ,field1      string
   ,q2          string
   ,field2      string
   ,q3          string
   ,field3      string
)
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'
with serdeproperties ('input.regex' = '.*?=(?<q1>"?)(.*?)(?:\\k<q1>)\\|.*?=(?<q2>"?)(.*?)(?:\\k<q2>)\\|.*?=(?<q3>"?)(.*?)(?:\\k<q3>)')
stored as textfile
;

select * from mytable
;

+----+--------+----+--------+----+-----------+
| q1 | field1 | q2 | field2 | q3 |  field3   |
+----+--------+----+--------+----+-----------+
|    | value2 |    | value2 | "  | va , lues |
+----+--------+----+--------+----+-----------+

2

create external table mytable
(
    field1 string
   ,field2 string
   ,field3 string
)
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'
with serdeproperties ('input.regex' = '.*?=(".*?"|.*?)\\|.*?=(".*?"|.*?)\\|.*?=(".*?"|.*?)')
stored as textfile
;

select * from mytable
;

+--------+--------+-------------+
| field1 | field2 |   field3    |
+--------+--------+-------------+
| value2 | value2 | "va , lues" |
+--------+--------+-------------+

关于regex - Hive Serde中特定分隔符字符串的正则表达式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43787756/

25

4

0

文章推荐： asp.net:response.redirect 不起作用

文章推荐： asp.net - 带文本的工具提示 + databinder.eval

文章推荐： docker - 手动安装Kafka连接器

rust - Serde:使用容器＃[serde(default)]，但带有一些必填字段
我有一个使用the #[serde(default)] container attribute的结构。但是，应该有一个字段是必需的(如果输入数据中不存在该字段，则反序列化器应该出错，而不是退回到默认
serialization - 使用#[serde(untagged)] 和#[serde(with)] 的组合反序列化枚举
我正在尝试使用 actix-web 服务器作为通往小型堆栈的网关，以保证堆栈内部的数据格式严格，同时为用户提供一些自由。为此，我想将 JSON 字符串反序列化为结构，然后对其进行验证、再次序列化并将
java - Hive 在创建表 "Cannot validate serde: com.cloudera.hive.serde.JSONSerDe"时抛出错误
正在使用 apache-hive-0.13.1。在创建表配置单元时抛出如下错误 FAILED: Execution Error, return code 1 from org.apache.hadoo
rust - Serde 结构版本检查
我想添加一个简单的版本方案 + 检查我的结构: #[derive(Serialize, Deserialize)] struct Versioned { version: u32, o
rust - serde - 多个默认值组合在一起？
我正在尝试使用 Serde 加载一个 Toml 文件，它包含多个 bool 值，如果在文本文件中找不到，我想将它们全部默认为 false。我目前的实现是: #[derive(serde::Deser
serialization - Serde 使用远程对象的代理类型序列化
如何使用 Serde 为远程类型创建序列化程序代理对象？这是一个最小的例子(playground): use serde; // 1.0.104 use serde_json; // 1.0.48 s
json - Serde JSON反序列化枚举
我有一个枚举: #[derive(Serialize, Deserialize)] enum Action { Join, Leave, } 和一个结构: #[derive(Seria
json - Serde JSON反序列化枚举
我有一个枚举: #[derive(Serialize, Deserialize)] enum Action { Join, Leave, } 和一个结构: #[derive(Seria
Rust serde 反序列化混合数组
在 Rust 中，我从 websocket 接收数据。为简单起见，它看起来像这样: [1, {"a": ["1.2345", 5, "9.8765"]}] 我从 websocket 获得的字符串确实
rust - serde:加速自定义枚举反序列化
我的程序解析足够大的 json 文档(30MB)，在 CPU 较慢的机器上需要 70 毫秒，我想加快这个过程，我发现 27% 的解析发生在我的 foo_document_type_deserializ
正则表达式 serde 读取配置单元中的日志文件
我正在尝试在配置单元中创建一个正则表达式 serde 来读取一些日志文件，但是在让它工作时遇到了问题... 日志文件看起来像这样...... 14.196.202.16:9123 11329 2
JSON Serde - 映射列名
我正在使用映射列的 JSON-Serde 功能来重命名我的 json 文档中的列 'Customer ID' -> 'customer_id。我使用映射函数的原因是因为 HQL 不允许在 CREATE
hadoop - 用于配置单元中简单序列文件的 serde
我有一个包含 Text 键和 DoubleWritable 值的序列文件。当我将文件加载为外部表时 Create external table t (id String, data Double) S
rust - 如何使用 Serde 只允许一个字段或另一个字段？
假设我有这个结构: use serde::{Serialize, Deserialize}; #[derive(Deserialize)] struct MyStruct { field_1:
rust - serde/bincode 如何序列化字节数组？
这段代码完全按照我的意愿序列化了一个 32 字节的数组: #[derive(Debug, Clone, Serialize, Deserialize, PartialEq, Eq, PartialOr
rust - Serde::Deserialize 的实现不够通用
我正在使用 event_emmiter_rs用于我的应用程序中的事件处理。该库允许您订阅带有回调的事件并触发这些事件。事件采用 (strings, value) 的形式，回调采用接受值参数的闭包形式。
rust - 我可以用 serde 序列化枚举的定义吗？
给定这个枚举定义: #[repr(u8)] #[derive(Debug, Serialize)] pub enum AnimalType { #[serde(rename = "cat")]
rust - 如何使用 Serde 序列化具有顶级键的结构？
我目前正在使用 Rocket 开发一个 Web API，它使用以下结构进行错误响应: #[derive(Serialize, Deserialize)] pub struct ErrorRespons
regex - 使用 serde 正则表达式在配置单元表中加载日志数据为空
我想解析这个日志样本 May 3 11:52:54 cdh-dn03 init: tty (/dev/tty6) main process (1208) killed by TERM signal M
用于访问登录 hive serde 的正则表达式
我想从访问日志中提取(ip、requestUrl、timeStamp)以加载到 hive 数据库。访问日志中的一行如下。 66.249.68.6 - - [14/Jan/2012:06:25:03 -

首页

博学

6Ren·AI

商城

regex - Hive Serde中特定分隔符字符串的正则表达式