gpt4 book ai didi

hadoop - Cascalog进程多行json?

转载 作者:可可西里 更新时间:2023-11-01 16:53:03 26 4
gpt4 key购买 nike

我有一个要使用 cascalog 处理的 Json 文件目录。我现在拥有的解决方案要求我使用 bash 脚本从我的 json 文件中删除所有换行符。我正在寻找更好的解决方案,因为我使用 rsync 同步这些文件。

我的问题是我能否在 Cascalog 中读取文件的内容并将文件的内容作为一个元组返回。目前,函数“lfs-textline”为文件中的每一行返回一个元组序列,因此我必须删除换行符。最好我想为每个文件返回一个元组序列。

(defn textline-parsed [dir]
(let [source (lfs-textline dir)]
(<- [?line]
(source ?line))))

最佳答案

使用 cascalog.more-taps 中的 hfs-wholefile 来执行此操作。

(:require [cascalog.more-taps :as taps])

(defn- byte-writable-to-str [bw]
"convert byte writable to stirng"
[(apply str (map char (. bw (getBytes))))])

然后,使用

(??<- [?str] 
((taps/hfs-wholefile path) ?filename ?file-content)
(byte-writable-to-str ?file-content :> ?str)

关于hadoop - Cascalog进程多行json?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31087725/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com