- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在使用某些 json 文件(从 Twython/Tweeter API 生成)时遇到问题。
该文件如下所示:
[
{
"created_at": "Thu Mar 14 20:24:53 +0000 2019",
"id": 1106290123426140165,
"id_str": "1106290123426140165",
"text": "RT @ALABDULLATIF: n@B_Al3bdullatif \n\u278b\u2026",
"source": "<a href=\"http://twitter.com/download/android\"
rel=\"nofollow\">Twitter for Android</a>",
"truncated": false,
"in_reply_to_status_id": null,
"in_reply_to_status_id_str": null,
"in_reply_to_user_id": null,
"in_reply_to_user_id_str": null,
"in_reply_to_screen_name": null,
"user": {
"id": 1091414851400929286,
"id_str": "1091414851400929286",
"name": "u064a",
"screen_name": "UThbZ4nwsuzAMQm",
"location": null,
"url": null,
"description": null,
"translator_type": "none",
"protected": false,
"verified": false,
"followers_count": 0,
"friends_count": 0,
"listed_count": 0,
"favourites_count": 0,
"statuses_count": 2,
"created_at": "Fri Feb 01 19:15:52 +0000 2019",
"utc_offset": null,
"time_zone": null,
"geo_enabled": false,
"lang": "en",
"contributors_enabled": false,
"is_translator": false,
"profile_background_color": "F5F8FA",
ETC
当我尝试用这个来阅读它时:
fname = "tweets_03.json"
text=[]
retweets=[]
language=[]
followers=[]
with open(fname, 'r') as f:
for line in f:
if not line.isspace():
tweet = json.loads(line)
text.append(tweet.get('text', ''))
retweets.append(tweet.get('retweet_count',''))
language.append(tweet.get('lang',''))
followers.append(tweet.get('followers_count',''))
text=pd.DataFrame(text)
text.columns=['text']
retweets=pd.DataFrame(retweets)
retweets.columns=['retweets']
language=pd.DataFrame(language)
language.columns=['language']
followers=pd.DataFrame(followers)
followers.columns=['followers']
df=pd.concat([text,retweets,language,followers],axis=1)
df.head(5)
我收到以下错误消息:
JSONDecodeError: Expecting value: line 2 column 1 (char 2)
我也尝试过:
data = "tweets_03.json"
jdata = json.loads(data)
df = pd.DataFrame(jdata)
这给了我以下错误:
JSONDecodeError: Expecting value: line 1 column 1 (char 0)
如果有人可以提供帮助,我们将不胜感激。我想将数据转换为数据框。谢谢最美好的祝愿
最佳答案
问题是你的json文件实际上是多个json文件合并成1。你需要将它们分开并加载读取它们。
我这样做的方法是找到所有这些 ][
实例并拆分它们。然后只需迭代每个要加载的内容,然后转储到数据帧中即可。但它相当困惑,因为它里面嵌套了字典和列表。但这将为您生成一个数据框。
import pandas as pd
import json
data = []
with open('tweets_03.json') as json_file:
data_str = json_file.read()
data_str = data_str.split('[',1)[-1]
data_str = data_str.rsplit(']',1)[0]
data_str = data_str.split('][')
for jsonStr in data_str:
jsonStr = '[' + jsonStr + ']'
temp_data = json.loads(jsonStr)
for each in temp_data:
data.append(each)
df = pd.DataFrame(data)
输出:
print (df)
contributors ... user
0 None ... {'id': 427643942, 'id_str': '427643942', 'name...
1 None ... {'id': 1063556070151528449, 'id_str': '1063556...
2 None ... {'id': 924769730606567424, 'id_str': '92476973...
3 None ... {'id': 287355962, 'id_str': '287355962', 'name...
4 None ... {'id': 2908153155, 'id_str': '2908153155', 'na...
5 None ... {'id': 1040181804026744832, 'id_str': '1040181...
6 None ... {'id': 397901665, 'id_str': '397901665', 'name...
7 None ... {'id': 14547327, 'id_str': '14547327', 'name':...
8 None ... {'id': 1159572698, 'id_str': '1159572698', 'na...
9 None ... {'id': 3025332991, 'id_str': '3025332991', 'na...
10 None ... {'id': 926921371065647104, 'id_str': '92692137...
11 None ... {'id': 428415680, 'id_str': '428415680', 'name...
12 None ... {'id': 1040967562442551301, 'id_str': '1040967...
13 None ... {'id': 984957304905744385, 'id_str': '98495730...
14 None ... {'id': 24174895, 'id_str': '24174895', 'name':...
15 None ... {'id': 543254812, 'id_str': '543254812', 'name...
16 None ... {'id': 377146136, 'id_str': '377146136', 'name...
17 None ... {'id': 63308004, 'id_str': '63308004', 'name':...
18 None ... {'id': 3039612566, 'id_str': '3039612566', 'na...
19 None ... {'id': 2902946418, 'id_str': '2902946418', 'na...
20 None ... {'id': 966776807830716416, 'id_str': '96677680...
21 None ... {'id': 1017086923507040256, 'id_str': '1017086...
22 None ... {'id': 888271500658081792, 'id_str': '88827150...
23 None ... {'id': 1085986810591932419, 'id_str': '1085986...
24 None ... {'id': 720061374999568384, 'id_str': '72006137...
25 None ... {'id': 21243436, 'id_str': '21243436', 'name':...
26 None ... {'id': 2849771796, 'id_str': '2849771796', 'na...
27 None ... {'id': 790823048744165376, 'id_str': '79082304...
28 None ... {'id': 881673927927496704, 'id_str': '88167392...
29 None ... {'id': 4344166641, 'id_str': '4344166641', 'na...
.. ... ... ...
942 None ... {'id': 306237570, 'id_str': '306237570', 'name...
943 None ... {'id': 883298986739748864, 'id_str': '88329898...
944 None ... {'id': 3027274443, 'id_str': '3027274443', 'na...
945 None ... {'id': 3189578162, 'id_str': '3189578162', 'na...
946 None ... {'id': 2327121601, 'id_str': '2327121601', 'na...
947 None ... {'id': 990411876, 'id_str': '990411876', 'name...
948 None ... {'id': 2995641808, 'id_str': '2995641808', 'na...
949 None ... {'id': 44540580, 'id_str': '44540580', 'name':...
950 None ... {'id': 47636922, 'id_str': '47636922', 'name':...
951 None ... {'id': 996052119433048064, 'id_str': '99605211...
952 None ... {'id': 806255305474641920, 'id_str': '80625530...
953 None ... {'id': 66738256, 'id_str': '66738256', 'name':...
954 None ... {'id': 1068149370229542912, 'id_str': '1068149...
955 None ... {'id': 229965328, 'id_str': '229965328', 'name...
956 None ... {'id': 1039247810410016769, 'id_str': '1039247...
957 None ... {'id': 4886141236, 'id_str': '4886141236', 'na...
958 None ... {'id': 892138074, 'id_str': '892138074', 'name...
959 None ... {'id': 134945640, 'id_str': '134945640', 'name...
960 None ... {'id': 300694818, 'id_str': '300694818', 'name...
961 None ... {'id': 840240258, 'id_str': '840240258', 'name...
962 None ... {'id': 265481826, 'id_str': '265481826', 'name...
963 None ... {'id': 1082113676344098816, 'id_str': '1082113...
964 None ... {'id': 229965328, 'id_str': '229965328', 'name...
965 None ... {'id': 4634960663, 'id_str': '4634960663', 'na...
966 None ... {'id': 161350829, 'id_str': '161350829', 'name...
967 None ... {'id': 1003363328641716225, 'id_str': '1003363...
968 None ... {'id': 898601924630597636, 'id_str': '89860192...
969 None ... {'id': 3285036854, 'id_str': '3285036854', 'na...
970 None ... {'id': 1099846021952294912, 'id_str': '1099846...
971 None ... {'id': 34326169, 'id_str': '34326169', 'name':...
[972 rows x 36 columns]
关于python - 将json数据读入DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55182417/
假设您有 2 个文件,如下所示。 file_1_october.csv file_2_november.csv 文件具有相同的列。所以我想在 R 中读取这两个文件,我可以使用 map 轻松完成。我还想
我有一个制表符分隔的文本文件: 0730000 John 1 01 225 000 000 当我将它读入 R 时 stud_stats data.table::f
似乎最直观的是 .rdata 文件可能是 R 加载的快速文件格式,但是在扫描一些堆栈帖子时,似乎更多的注意力集中在提高 .csv 或其他格式的加载时间上。有确定的答案吗? 最佳答案 不是一个明确的答案
我是 R 的新手,目前在读取 .csv 文件并将其转换为 data.frame 时遇到了很多麻烦7 列。这是我正在做的: gene_symbols_table head(gene_symbols_t
基本上我有一个格式如下所示的 csv: csv 有 11 列,前五列和后五列完全相同。我希望能够读取 csv 并将第一列和第五列(期间和支出)的所有实例存储在一个列表中,它们具有值,并对另一个列表中的
我对 Julia 比较陌生,正在寻找一种有效的方法来从文本文件中读取并将每个“列”存储在数组中(我有 2 列,但通用解决方案也很棒)。例如,我想要输入 1 2 3 4 5 6
基本上我有一个格式如下所示的 csv: csv 有 11 列,前五列和后五列完全相同。我希望能够读取 csv 并将第一列和第五列(期间和支出)的所有实例存储在一个列表中,它们具有值,并对另一个列表中的
我的程序分配了一个 32 位 int,随后尝试使用 read(2) 从套接字将 4 个字节读入 int 有时读取不完整并返回读取 2 个字节。有什么方法可以从中恢复吗?我想我必须在 int 的中途生成
我有大量的 CSV 文件。有些标题从第一行开始,其他标题从第 3 行开始,其他的从第 7 行开始,依此类推。 标题看起来都一样,它们只是从不同文件的不同行开始。有没有办法有条件地 read.csv 文
我写了一个小程序来从 csv 文件中读取数据: using System; using System.Collections.Generic; using System.Linq; using Sys
我需要读入一个包含 10,000 个整数的列表,并将它们按升序放置在一个 vector 中。请注意,我不是在然后阅读排序,而是在同时阅读时排序。 我这样做是为了学习。我意识到阅读时排序是 O(n^2)
我有一个问题。不幸的是,我没有找到任何答案。如何将参数传递给脚本,这是另一个命令的结果。例如: ls | ./myscript.sh 我想将 ls 的结果传递给 myscript。如果我执行上面的命
我在读取扩展 ASCII 字符并将其转换为十进制值时遇到问题。我试过这样做: unsigned char temp; while(temp = cin.get != EOF) { cout << (i
我已经通过以下命令加载了文本文件。我想从 contents 中删除由 \n 分隔的第一行标题行。怎么做? txtfile = open(filepath, "rt") contents = txtfi
希望一切顺利...我正在将数据集输入到 sklearn 算法中进行分类,但找不到任何简单的数据集来开始,所以我自己制作了数据集。但有一个问题... import numpy as np import
我有一个 .csv 文件,它有 3 行和 5 列,值为 0、1、2、3、50 或 100。我将它从 Excel 工作表保存到 .csv 文件。我正在尝试使用 C++ 读取 .csv 文件,并根据最后三
我有一个 HTML 文件,它将作为我要发送的电子邮件的模板。 html 中有一些字段是可变的。我想知道是否有一种可靠的方法可以用变量替换 HTML 文件中的占位符。我知道我可以 string.Repl
我从未使用过 JSON 文件,但我有实现 JSON 文件的任务,我需要将其转换为 IEnumerable。当我尝试对 JSON 对象进行反序列化时,我得到一个异常,上面写着: An unhandled
我正在尝试阅读 IFormFile从这样的 HTTP POST 请求中收到: public async Task UploadDocument([FromForm]DataWrapper data)
我有一个包含大量多行文本 block 的文件。我想将该文件读入一个字符向量列表——每个 block 一个。我对 scan()、read.table() 等函数的文档的阅读似乎表明一行的结尾将结束向量。
我是一名优秀的程序员,十分优秀!