gpt4 book ai didi

hadoop - Apache Drill - 在文件存储插件中使用多个定界符?

转载 作者:可可西里 更新时间:2023-11-01 16:08:31 24 4
gpt4 key购买 nike

我有类似于以下内容的日志:

value1 value2 "value 3 with spaces" value4

使用:

  "formats": {
"csv": {
"type": "text",
"delimiter": " "
}
}

对于由“”分隔的存储插件,我得到了以下列:

columns[0] | columns[1] | columns[2] | columns[3] | columns[5] | columns[6] | columns[7]
value1 | value2 | value | 3 | with | spaces | value4

我想要的是:

columns[0] | columns[1] | columns[2]              | columns[3] 
value1 | value2 | value 3 with spaces | value4

最佳答案

据我所知,在 Drill 中无法跳过定界符。但是,如果变量 3 是唯一可以在两者之间添加那些“”的变量,我能想到的解决方法是:

  • 构造您的第一个查询,使列 [3] 始终是最后一个,Ex

select columns[0], columns[1], columns[2], columns[4], columns[3] from dfs.default./path/to/your/file;

  • 使用 CONCATENATE() 命令在单独的列中构建变量。

另一种解决方法需要在让 Drill 读取文件之前更改文件中的默认分隔符。是否可行取决于您从何处获取数据。

祝您好运,如果您正在寻找有关 Drill 的更多内容,请务必查看 MapR 关于 Drill 的社区页面,其中包含可能有用的代码示例:https://community.mapr.com/community/products/apache-drill

关于hadoop - Apache Drill - 在文件存储插件中使用多个定界符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33702045/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com