- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将具有多层嵌套的 JSON 文件转换为 R 中的数据框。我查看了有关此问题的一些现有问题/答案(例如,Convert JSON to R dataframe 和 Flatten nested JSON to dataframe in R 和 Nested JSON to dataframe in R ),但由于这是我第一次处理 JSON 文件,所以我真的很吃力。
JSON 文件非常大并且包含 Twitter 数据。这是一个显示嵌套结构的示例:
[
{
"Corpus": "ALM",
"Tweets": [
{
"tweet_id": "521033092132503552",
"tweet_text": "no tweet text available",
"date": "no date available",
"annotations": [
{
"annotator": "annotator00",
"annotation": "care"
},
{
"annotator": "annotator01",
"annotation": "care,purity"
},
{
"annotator": "annotator02",
"annotation": "care,purity"
},
{
"annotator": "annotator03",
"annotation": "care"
}
]
},
{
"tweet_id": "537681598989475841",
"tweet_text": "Wholeheartedly support these protests & acts of civil disobedience & will join when I can! #Ferguson #AllLivesMatter",
"date": "Wed Nov 26 18:57:37 +0000 2014",
"annotations": [
{
"annotator": "annotator00",
"annotation": "subversion"
},
{
"annotator": "annotator01",
"annotation": "subversion"
},
{
"annotator": "annotator02",
"annotation": "loyalty"
},
{
"annotator": "annotator03",
"annotation": "loyalty,subversion"
}
]
},
这是同一数据文件的一些输出,但观察结果/推文不同(请注意,由于文件太大,最大的嵌套级别被切断):
list(tweet_id = "500745903054258177", tweet_text = "@MichaelSkolnik Thank you for joining the solidarity effort #DearMikesMom #AllLivesMatter",
date = "Sat Aug 16 20:48:21 +0000 2014", annotations = list(
list(annotator = "annotator01", annotation = "loyalty"),
list(annotator = "annotator02", annotation = "loyalty"),
list(annotator = "annotator03", annotation = "loyalty"))),
list(tweet_id = "621859689270120448", tweet_text = "no tweet text available",
date = "no date available", annotations = list(list(annotator = "annotator01",
annotation = "betrayal"), list(annotator = "annotator02",
annotation = "non-moral"), list(annotator = "annotator03",
annotation = "fairness"))), list(tweet_id = "551227029874438145",
我想要的输出是这样的:
corpus tweet_id tweet_text date annotator annotation
1 ALM 5210... no tweet text available no date available 00 care
2 ALM 5210... no tweet text available no date available 01 care, purity
3 ALM 5210... no tweet text available no date available 02 care, purity
4 ALM 5210... no tweet text available no date available 03 care
5 ALM 5376... Wholeheartedly suppo... Wed Nov 26 18:... 00 subversion
6 ALM 5376... Wholeheartedly suppo... Wed Nov 26 18:... 01 subversion
7 ALM 5376... Wholeheartedly suppo... Wed Nov 26 18:... 02 loyalty
8 ALM 5376... Wholeheartedly suppo... Wed Nov 26 18:... 03 loyalty, subversion
...
如何将 JSON 文件转换为我想要的数据帧输出?
我已经导入了 JSON 文件并尝试将其展平:
myData <- fromJSON(file = "my_json_file.json")
myData_flat <- as.data.frame(myData)
但这显然还不够:
str(myData_flat)
'data.frame': 1 obs. of 352130 variables:
$ Corpus : Factor w/ 1 level "ALM": 1
$ Tweets.tweet_id : Factor w/ 1 level "521033092132503552": 1
$ Tweets.tweet_text : Factor w/ 1 level "no tweet text available": 1
$ Tweets.date : Factor w/ 1 level "no date available": 1
$ Tweets.annotations.annotator : Factor w/ 1 level "annotator00": 1
$ Tweets.annotations.annotation : Factor w/ 1 level "care": 1
$ Tweets.annotations.annotator.1 : Factor w/ 1 level "annotator01": 1
$ Tweets.annotations.annotation.1 : Factor w/ 1 level "care,purity": 1
$ Tweets.annotations.annotator.2 : Factor w/ 1 level "annotator02": 1
$ Tweets.annotations.annotation.2 : Factor w/ 1 level "care,purity": 1
$ Tweets.annotations.annotator.3 : Factor w/ 1 level "annotator03": 1
$ Tweets.annotations.annotation.3 : Factor w/ 1 level "care": 1
$ Tweets.tweet_id.1 : Factor w/ 1 level "537681598989475841": 1
$ Tweets.tweet_text.1 : Factor w/ 1 level "Wholeheartedly support these protests & acts of civil disobedience & will join when I can! #Ferguson #A"| __truncated__: 1
$ Tweets.date.1 : Factor w/ 1 level "Wed Nov 26 18:57:37 +0000 2014": 1
$ Tweets.annotations.annotator.4 : Factor w/ 1 level "annotator00": 1
$ Tweets.annotations.annotation.4 : Factor w/ 1 level "subversion": 1
$ Tweets.annotations.annotator.5 : Factor w/ 1 level "annotator01": 1
$ Tweets.annotations.annotation.5 : Factor w/ 1 level "subversion": 1
$ Tweets.annotations.annotator.6 : Factor w/ 1 level "annotator02": 1
$ Tweets.annotations.annotation.6 : Factor w/ 1 level "loyalty": 1
$ Tweets.annotations.annotator.7 : Factor w/ 1 level "annotator03": 1
$ Tweets.annotations.annotation.7 : Factor w/ 1 level "loyalty,subversion": 1
...
最佳答案
R
中有几个包可以读取 JSON 数据并具有 fromJSON()
函数。 RJSONOIO
、jsonlite
和 rjson
是我所知道的。您似乎在代码中使用了 rjson::fromJSON()
。
由于 json
格式在如何存储数据方面非常灵活,并且能够存储复杂的嵌套结构,当我们将其转换为相对不太复杂的 数据格式时。 frame
,我们必须非常清楚数据的结构。您的案例相当简单,但在转换为 data.frame
的矩形形状时捕获 json 文件中的全部数据表示形式可能非常乏味。
rjson::fromJSON()
生成一个嵌套列表,类似于 JSON 文件的结构。
myData
list
的结构如下所示:
myData[[1]]:
- $Corpus
- $Tweets
- $[[1]]
- tweet data
- $[[2]]
- tweet data
为了提取您要查找的数据,您想循环遍历 mydata[[1]]$tweets
子列表的条目,将它们转换为 data .frame
,然后将所有这些 data.frame
绑定(bind)到一个大的 data.frame
。您可以使用 for
循环或类似 lapply()
的方法来实现。我建议使用 purrr::map_dfr()
,因为它会自动将每个嵌套操作的结果绑定(bind)到一个 data.frame
中。
我发现以下内容应该适用于您的数据。幸运的是 tibble::as.tibble()
适用于您的数据。您将其应用于每个推文条目一次,然后将其应用于每组 annotator
、annotation
,您将获得所需的结果。
library(rjson)
myData <- fromJSON(file = "my_json_file.json")
library(purrr)
library(dplyr)
myData_df <- map_dfr(myData[[1]]$Tweets, as.tibble)
annotations_df <- map_dfr(myData_df$annotations, as.tibble)
myData_df %>%
select(-annotations) %>%
bind_cols(annotations_df)
># A tibble: 8 x 5
> tweet_id tweet_text date annotator annotation
<chr> <chr> <chr> <chr> <chr>
1 521033092132… no tweet text available no date available annotato… care
2 521033092132… no tweet text available no date available annotato… care,purity
3 521033092132… no tweet text available no date available annotato… care,purity
4 521033092132… no tweet text available no date available annotato… care
5 537681598989… Wholeheartedly support these protests & acts of civ… Wed Nov 26 18:57… annotato… subversion
6 537681598989… Wholeheartedly support these protests & acts of civ… Wed Nov 26 18:57… annotato… subversion
7 537681598989… Wholeheartedly support these protests & acts of civ… Wed Nov 26 18:57… annotato… loyalty
8 537681598989… Wholeheartedly support these protests & acts of civ… Wed Nov 26 18:57… annotato… loyalty,subv…
关于r - 将嵌套的 JSON 文件转换为 R 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60839771/
最近开始学习MongoDB。今天老师教了我们 mongoexport 命令。在练习时,我遇到了一个典型的问题,包括教练在内的其他同学都没有遇到过。我在我的 Windows 10 机器上使用 Mongo
我是 JSON Schema 的新手,读过什么是 JSON Schema 等等。但我不知道如何将 JSON Schema 链接到 JSON 以针对该 JSON Schema 进行验证。谁能解释一下?
在 xml 中,我可以在另一个 xml 文件中包含一个文件并使用它。如果您的软件从 xml 获取配置文件但没有任何方法来分离配置,如 apache/ngnix(nginx.conf - site-av
我有一个 JSON 对象,其中包含一个本身是 JSON 对象的字符串。我如何反序列化它? 我希望能够做类似的事情: #[derive(Deserialize)] struct B { c: S
考虑以下 JSON { "a": "{\"b\": 12, \"c\": \"test\"}" } 我想定义一个泛型读取 Reads[Outer[T]]对于这种序列化的 Json import
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 11 个月前关闭。 Improve
我的旧项目在 MySQL 中有 Standard JSON 格式的数据。 对于我在 JS (Node.js) 和 DynamoDB 中的全新项目,关于 Standard JSON格式: 是否建议将其转
JSON 值字符串、数字、true、false、null 是否是有效的 JSON? 即,是 true 一个有效的 JSON 文档?还是必须是数组/对象? 一些验证器接受这个(例如 http://jso
我有一个 JSON 字符串,其中一个字段是文本字段。这个文本字段可以包含用户在 UI 中输入的文本,如果他们输入的文本是 JSON 文本,也许是为了说明一些编码,我需要对他们的文本进行编码,以便它不会
我正在通过 IBM MQ 调用处理数据,当由 ColdFusion 10 (10,0,11,285437) 序列化时,0 将作为 +0.0 返回,它会导致无效的 JSON并且无法反序列化。 stPol
我正在从三个数组中生成一个散列,然后尝试构建一个 json。我通过 json object has array 成功了。 require 'json' A = [['A1', 'A2', 'A3'],
我从 API 接收 JSON,响应可以是 30 种类型之一。每种类型都有一组唯一的字段,但所有响应都有一个字段 type 说明它是哪种类型。 我的方法是使用serde .我为每种响应类型创建一个结构并
我正在下载一个 JSON 文件,我已将其检查为带有“https://jsonlint.com”的有效 JSON 到文档目录。然后我打开文件并再次检查,结果显示为无效的 JSON。这怎么可能????这是
我正在尝试根据从 API 接收到的数据动态创建一个 JSON 对象。 收到的示例数据:将数据解码到下面给出的 CiItems 结构中 { "class_name": "test", "
我想从字符串转换为对象。 来自 {"key1": "{\n \"key2\": \"value2\",\n \"key3\": {\n \"key4\": \"value4\"\n }\n
目前我正在使用以下代码将嵌套的 json 转换为扁平化的 json: import ( "fmt" "github.com/nytlabs/gojsonexplode" ) func
我有一个使用来自第三方 API 的数据的应用程序。我需要将 json 解码为一个结构,这需要该结构具有“传入”json 字段的 json 标签。传出的 json 字段具有不同的命名约定,因此我需要不同
我想使用 JSON 架构来验证某些值。我有两个对象,称它们为 trackedItems 和 trackedItemGroups。 trackedItemGroups 是组名称和 trackedItem
考虑以下案例类模式, case class Y (a: String, b: String) case class X (dummy: String, b: Y) 字段b是可选的,我的一些数据集没有字
我正在存储 cat ~/path/to/file/blah | 的输出jq tojson 在一个变量中,稍后在带有 JSON 内容的 curl POST 中使用。它运作良好,但它删除了所有换行符。我知
我是一名优秀的程序员,十分优秀!