gpt4 book ai didi

python - 如何在 Python 中打开 .ndjson 文件?

转载 作者:行者123 更新时间:2023-12-05 08:30:34 25 4
gpt4 key购买 nike

我有一个 20GB 的 .ndjson 文件,我想用 Python 打开它。文件太大了,所以我找到了一种方法,可以用一个在线工具将它分成 50 个和平。这是工具:https://pinetools.com/split-files

现在我得到一个文件,扩展名为 .ndjson.000(我不知道那是什么)

我试图将其作为 json 或 csv 文件打开,以在 pandas 中读取它,但它不起作用。你知道如何解决这个问题吗?

import json
import pandas as pd

第一种方法:

df = pd.read_json('dump.ndjson.000', lines=True)

错误:ValueError:解码“string”时不匹配的“””

第二种方法:

with open('dump.ndjson.000', 'r') as f:

my_data = f.read()

print(my_data)

错误:json.decoder.JSONDecodeError:未终止的字符串开始于:第 1 行第 104925061 列(字符 104925060)

我认为问题是我的文件中有一些表情符号,所以我不知道如何对它们进行编码?

最佳答案

ndjson 现在支持开箱即用的参数 lines=True

import pandas as pd

df = pd.read_json('/path/to/records.ndjson', lines=True)
df.to_json('/path/to/export.ndjson', lines=True)

关于python - 如何在 Python 中打开 .ndjson 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63501251/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com