hadoop - Cascalog进程多行json？-6ren

hadoop - Cascalog进程多行json？

转载作者：可可西里更新时间：2023-11-01 16:53:03

26

4

我有一个要使用 cascalog 处理的 Json 文件目录。我现在拥有的解决方案要求我使用 bash 脚本从我的 json 文件中删除所有换行符。我正在寻找更好的解决方案，因为我使用 rsync 同步这些文件。

我的问题是我能否在 Cascalog 中读取文件的内容并将文件的内容作为一个元组返回。目前，函数“lfs-textline”为文件中的每一行返回一个元组序列，因此我必须删除换行符。最好我想为每个文件返回一个元组序列。

(defn textline-parsed [dir]
    (let [source (lfs-textline dir)]
        (<- [?line]
            (source ?line))))

最佳答案

使用 cascalog.more-taps 中的 hfs-wholefile 来执行此操作。

(:require [cascalog.more-taps :as taps])

(defn- byte-writable-to-str [bw]
  "convert byte writable to stirng"
  [(apply str (map char (. bw (getBytes))))])

然后，使用

(??<- [?str] 
    ((taps/hfs-wholefile path) ?filename ?file-content) 
    (byte-writable-to-str ?file-content :> ?str)

关于hadoop - Cascalog进程多行json？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31087725/

26

4

0

文章推荐： hadoop - Spark/Hadoop/Yarn集群通信需要外部ip？

文章推荐： Hadoop 多节点集群

文章推荐： SQL - session 计数和 session 之间的事务

hadoop - Cascalog:启动uberjar并在hadoop上进行main
我已经从类似的文件编译了一个uberjar: (defmain HadoopTest (:use 'cascalog.api) (defn bla ("alot of code")) 我在hadoop
clojure - 无法解析 Cascalog 中谓词中的符号
我有这个问题: (? ?item1 ?item2) ) (defn data-line? [^String row] (and (not= -1 (.indexOf row ","
hadoop - 使用 cascalog 将同现计数转化为同现概率
我有一个存储在 s3 上的同现计数表(其中每一行都是 [key-a, key-b, count])，我想从中生成同现概率矩阵。为此，我需要计算每个键 a 的计数总和，然后将每行除以其键 a 的总和。
hadoop - Cascalog Hadoop 版本支持
我注意到 Cascalog 入门指南指定了 Hadoop 的一个版本 :profiles { :dev {:dependencies [[org.apache.hadoop/hadoop-core "
clojure - 跨所有行的 Cassandra Cascalog 操作
我有看起来像这样的数据 {super-row-key1 [{ts1 {version-ts1 value, version-ts2 value}} {ts2
clojure - Cascalog deffilterop 与纯 clojure
使用 deffilterop 和使用钱包 clojure 函数之间是否存在差异、性能或其他方面的差异？ http://nathanmarz.com/blog/introducing-cascalog-
hadoop - Cascalog first-n - 无法连接谓词
我正在处理 following example在来自 cascalog project 的克隆中的 lein repl .我跑过: (def src [[1] [3] [2]]) (def query
hadoop - 使用 Cascalog/Cascading 读取 XML
网上有一些信息表明 Mahout 的 XMLInputFormat可用于在 hadoop 上有效地处理 XML，但我一直无法找到如何使其工作的示例。有人可以指出我正确的方向吗？我正在使用 Casca
mysql - 从 cascalog 写入 MySQL 不起作用。如何调试这个？
我正在尝试将级联查询的结果写入 MySQL 数据库。为此，我正在使用 cascading-jdbc 并按照我发现的示例进行操作 here 。我在 3.0.0 中使用 cascading-jdbc-co
hadoop - Clojure Hadoop - 5 行 Cascalog 相当于 300 行 PIG？
在this presentation在幻灯片 36 和 37 - Cascalog 的作者断言，给定一组姓名和年龄的数据，例如:[姓名年龄]返回所有大于平均年龄的结果的查询是 300 行 PIG。这

首页

博学

6Ren·AI

商城

hadoop - Cascalog进程多行json？