json - 我有一个凌乱的 JSON，我正在尝试使用 jq 清理它-6ren

json - 我有一个凌乱的 JSON，我正在尝试使用 jq 清理它

转载作者：行者123 更新时间：2023-12-04 02:00:23

我有一些凌乱的 JSON。

某些节点跨行不一致。在某些行中，这些节点是数组，而在某些行中，这些节点是对象或字符串。

这里的例子只有两层，但实际数据嵌套了更多层。

例子:

[
  {
    "id": 1,
    "person": {
      "addresses": {
        "address": {
          "city": "FL"
        }
      },
      "phones": [
        {
          "type": "mobile",
          "number": "555-555-5555"
        }
      ],
      "email": [
        {
          "type": "work",
          "email": "john.doe@gmail.com"
        },
        {
          "type": "work",
          "email": "john.doe@work.com"
        }
      ]
    }
  },
  {
    "id": 2,
    "person": {
      "addresses": [
        {
          "type": "home",
          "address": {
            "city": "FL"
          }
        }
      ],
      "phones": {
        "type": "mobile",
        "number": "555-555-5555"
      },
      "email": {
        "type": "work",
        "email": "jane.doe@gmail.com"
      }
    }
  }
]

我想让节点保持一致，以便如果任何节点是任何节点中的数组，则其余节点应转换为数组。

一旦数据一致，分析和重组数据就会更容易。

预期结果:

[
  {
    "id": 1,
    "person": {
      "addresses": [
        {
          "address": {
            "city": "FL"
          }
        }
      ],
      "phones": [
        {
          "type": "mobile",
          "number": "555-555-5555"
        }
      ],
      "email": [
        {
          "type": "work",
          "email": "john.doe@gmail.com"
        },
        {
          "type": "work",
          "email": "john.doe@work.com"
        }
      ]
    }
  },
  {
    "id": 2,
    "person": {
      "addresses": [
        {
          "type": "home",
          "address": {
            "city": "FL"
          }
        }
      ],
      "phones": [
        {
          "type": "mobile",
          "number": "555-555-5555"
        }
      ],
      "email": [
        {
          "type": "work",
          "email": "jane.doe@gmail.com"
        }
      ]
    }
  }
]

使数组一致后，我想展平数据，以便对象展平，但阵列仍然是阵列。这个

预期结果

[
  {
    "id": 1,
    "person.addresses": [
      {
        "address": {
          "city": "FL"
        }
      }
    ],
    "person.phones": [
      {
        "type": "mobile",
        "number": "555-555-5555"
      }
    ],
    "person.email": [
      {
        "type": "work",
        "email": "john.doe@gmail.com"
      },
      {
        "type": "work",
        "email": "john.doe@work.com"
      }
    ]
  },
  {
    "id": 2,
    "person.addresses": [
      {
        "type": "home",
        "address": {
          "city": "FL"
        }
      }
    ],
    "person.phones": [
      {
        "type": "mobile",
        "number": "555-555-5555"
      }
    ],
    "person.email": [
      {
        "type": "work",
        "email": "jane.doe@gmail.com"
      }
    ]
  }
]

我能够使用 jq 部分地做到这一点。当有一条或两条路径需要修复时，它会起作用，但是当路径超过两条时，它似乎会中断。

我采取的方法

确定所有可能的路径

对每个路径的数据类型进行分组和计数

识别存在混合数据类型的情况

按深度递减对路径进行排序

排除没有混合类型的路径

排除其中一种混合类型不是数组的路径

对于每条路径，对原始数据应用修复

这将生成一个包含 N 个副本的流，每个 N 转换一个副本

提取应包含清理结果的最后一个副本

My Experiment so far

def fix(data; path):
  data |= map(. | getpath(path)?=([getpath(path)?]|flatten));

def hist:
  length as $l
  | group_by (.)
  | map( .
         | (.|length) as $c
         | {(.[0]):{
             "count": $c,
             "diff": ($l - $c)
           }} )
  | (length>1) as $mixed
  | {
      "types": .[],
      "count": $l,
      "mixed":$mixed
    };

def summary:
  map( .
       | path(..) as $p
       | {
           path:$p,
           type: getpath($p)|type,
           key:$p|join(".")
         }
     )
  | flatten
  | group_by(.key)
  | map( .
         | {
             key: .[0].key,
             path: .[0].path,
             depth: (.[0].path|length),
             type:([(.[] | .type)]|hist)
           }
       )
  | sort_by(.depth)
  | reverse;

. as $data
  | .
  | summary
  | map( . 
         | select(.type.mixed)
         | select(.type.types| keys| contains(["array"]))
         | .path)
  | map(. as $path | $data | fix($data;$path))
  | length as $l
  | .[$l-1]

仅存在最后一次转换。我认为 $data 没有被我的修复更新，这可能是根本原因，或者我只是做错了。

Here is e where this doesn't work

最佳答案

下面的响应首先解决了第一个任务，即:

make the nodes consistent so that if any ... node is an array in any of the nodes, then the remaining nodes should be converted into arrays.

以一种通用的方式:

def paths_to_array:
  [paths as $path
   | select( any(.[]; (getpath($path[1:] )? | type) == "array"))
   | $path] ;

# If a path to a value in .[] is an array, 
# then ensure all corresponding values are also arrays
def make_uniform:
  reduce (paths_to_array[][1:]) as $path (.;
    map( (getpath($path)? // null) as $value
         | if $value and ($value|type != "array")
           then setpath($path; [$value])
           else . end )  ) ;

make_uniform

对于第二个任务，让我们定义一个效用函数:

# Input is assumed to be an object:
def flatten_top_level_keys:
  [ to_entries[]
    | if (.value|type) == "object" 
      then .key as $k
      | (.value|to_entries)[] as $kv
      | {key: ($k + "." + $kv.key), value: $kv.value} 
      else .
      end ]
  | from_entries;

这可以与 walk/1 一起使用实现递归
压平。

换句话说，可以得到组合问题的解
经过:

make_uniform
| walk( if type == "object" then flatten_top_level_keys else . end )

效率
make_uniform的上述定义该行存在明显的效率问题:

 reduce (paths_to_array[][1:]) as $path (.;

使用 jq 的 unique将是解决它的一种方法，但是 unique是使用排序来实现的，在这种情况下会引入另一个低效率。所以让我们用这个老栗子:

# bag of words
def bow(stream): 
  reduce stream as $word ({}; .[$word|tostring] += 1);

现在我们可以定义 make_uniform更有效率:

def make_uniform:
  def uniques(s): bow(s) | keys_unsorted[] | fromjson;
  reduce uniques(paths_to_array[][1:]) as $path (.;
     map( (getpath($path)? // null) as $value
      | if $value and ($value|type != "array") 
        then setpath($path; [$value]) 
        else . end )  ) ;

关于json - 我有一个凌乱的 JSON，我正在尝试使用 jq 清理它，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57133421/

文章推荐： javascript - lodash 链接是如何工作的？

文章推荐： computational-geometry - 网格到网格的交叉点

php - 清理/清理 xpath 属性
我需要为元素属性动态构建 XPath 查询，其中属性值由用户提供。我不确定如何清理或清理此值以防止 XPath 等同于 SQL 注入(inject)攻击。例如(在 PHP 中): xpath("//m
PHPMailer 清理
问题很简单:在使用 PHPmailer 类时我应该使用任何类型的清理吗？我制作了使用 phpmailer 类发送电子邮件的简单发送邮件表单。目前我只使用“htmlspecialchars”进行清理(
python - 清理 for 循环中断
你可以在python中创建一个在for循环退出时运行清理代码的迭代吗？就像是: from random import randint class Iterable: def __iter__(
SQLite 清理/碎片和性能下降
假设我定期将数据插入 SQLite 数据库，然后清除前 50% 的数据，但我不清理。我现在是否有类似文件前 50% 的清零页面之类的东西？如果我添加另一批数据，我是否正在填写那些清零的页面？手册中
正则表达式:清理 HTML
我有一堆 HTML 代码，我想在其中删除所有 HTML 标记。我认为 Regex(正则表达式)可以做到这一点。通过搜索和替换，我将如何执行此操作？我尝试了，我认为 * 是通配符，但显然不是。
haskell - FizzBuzz 清理
我仍在学习 Haskell，我想知道是否有一种不太冗长的方法来使用 1 行代码来表达以下语句: map (\x -> (x, (if mod x 3 == 0 then "fizz" else "")
java - 清理/转义进入SSH命令的参数
我需要怎么做才能正确清理/转义程序化SSH命令中输入的参数？例如，路径参数- public boolean exists(String path) { try { Chann
javascript - 清理 Canvas
这个问题已经有答案了: How to clear the canvas for redrawing (25 个回答) 已关闭10 个月前。我目前正在尝试创建一个带有雨滴落下的 Canvas ，我唯一
php - 清理/过滤用户评论的最佳方式？
我目前正在使用此过程来清理/过滤用户输入的评论 -> 这个是用来去掉斜线的……和 if (get_magic_quotes_gpc()) { function stripslashe
plone - 清理 portal_setup
是否可以在 portal_setup 中删除旧的导入配置文件。目前，我的网站上有许多可追溯到 2009 年的条目:: import-all-profile-Products.Archetypes_
angularjs - 清理/销毁指令的正确方法是什么？
假设我有多个指令，包括以下内容: ...template content... ...template content... 你如何销毁指令？通常我会在 jquery 中做一些我 $('#2').re
java - 如何删除java程序生成的临时文件(清理)？
我正在开发一个可移植java应用程序，它可以在用户的PC(Windows XP)上动态生成一些文件。现在，我想要的是在java程序退出后删除这些临时文件。显然，java的文件删除机制是不可信的。即
清理 argv 程序
我有一个 argv c 程序，它反转单词，并查看它是否是回文。我只是想清理输出并让它打印原始输入而不是相反的输入，但由于它是 argv，我似乎不知道该怎么做。 int main(int argc, c
Javascript:清理 Markdown
我的网页上有一篇用 markdown 写的文章，我想在索引页上显示一份简短的简历。问题是正文有markdown，我想在简历上显示纯文本。例如: Article text: Hello people
清理 C 代码中的指针
在下面的代码片段中，可以做些什么来a)让编译器安静，b)清理交叉的指针困惑？ extern struct tree *sintablein[sintablesize]; struct tree *(*
Java WeakHashMap 清理
我试图弄清楚 WeakHashMap 在垃圾收集后如何清理。正如你们中许多人可能知道的那样，当 WeakHashMap 条目的键被垃圾回收时，它会自动删除。但是，例如，如果我做这样的事情: List>
java - 清理、构建和构建之间的区别？
我对构建的理解是，它只编译上次构建中编辑过的Java文件，而干净构建将删除所有类文件并重新编译所有文件。那么，当单独构建就足以满足我提供最新版本的类文件的需要时，干净构建的效用是什么？最佳答案有时
postgresql 复制 + 清理
是否有任何简单的(内置的、附加的、开源的或商业的)在 Postgresql(主从)上进行复制，以便在复制时清理从属内部的数据以符合 PCI 合规性？ ETL工具怎么样？它不一定是瞬时的……最多一个小时
MySQL HTML 清理
我有一个将数据保存到 MySQL 数据库的网站在将 HTML 插入 MySQL 或在我的网站上显示它时，我应该转义 HTML 吗？理想情况下，我想将原始 HTML 输入到我的数据库中，并在每次从中
php - 清理/转义用户输入和输出
我知道我已经asked一个关于 sanitizer 和转义的问题，但我有一个问题没有得到回答。好了，到此为止。如果我有一个 PHP 脚本并且我 GET用户输入和SELECT它来自 mySQL 数据库

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

json - 我有一个凌乱的 JSON，我正在尝试使用 jq 清理它