python - ValueError 使用 pd.read_json 读取大数据集-6ren

python - ValueError 使用 pd.read_json 读取大数据集

转载作者：太空宇宙更新时间：2023-11-03 20:43:35

25

4

我正在工作一组 code exercises使用 Yelp reviews dataset 。此时，在练习中，我应该阅读 review.json，其中每行有一个 JSON 记录。我制作了一个较小版本的 JSON 文件，只有 100 条记录，用于测试。

我可以将整个测试文件读入 pandas 数据帧并检查它。

但是，完整的数据集文件大约有 600 万行。建议使用 chunksize 并构建一个 json 读取器。即使使用我的测试输入，我也会遇到错误。

我的代码目前看起来像这样

path = 'file://localhost/Users/.../DSC_Intro/'
filename = path + 'yelp_dataset/review_100.json'

# create a reader to read in chunks
review_reader = 
pd.read_json(StringIO(filename), lines=True, chunksize=10)

type(review_reader)

类型调用返回

pandas.io.json.json.JsonReader

看起来不错。

然后我尝试

for chunk in review_reader:
    print(chunk)

如 pandas user guide 中所引用我收到一个错误:

ValueError: Unexpected character found when decoding 'false'

更新 - 有人认为该问题是由数据文件中嵌入(带引号)“\n”字符引起的； pandas 看到的 JSON 记录不是每行一个，而是多行。

如果是这样的话，错误消息非常不透明。另外，对于 600 万行，我应该如何告诉 pd.read_json 忽略 "\n" 并只查看数据中的实际换行符？

更新

有人建议，如果我修复我的拼写错误(这是这篇文章中的拼写错误，而不是我的代码中的拼写错误)并使用 Unix 文件路径而不是 URL(JSON 不关心:请参阅文档)。

当我这样做但保留 StringIO() 时，我会得到一个不同的 ValueError。

当我执行此操作但删除 StringIO() 时，代码可以正常工作。

这看起来很脆弱。 :-(

<小时/>

注意本教程有答案。我已经尝试过该代码。答案关键使用

review_reader = 
pd.read_json(filename, lines=True, chunksize=10)

抛出类型错误

sequence item 0: expected str instance, bytes found

添加 StringIO() 似乎已经解决了这个问题。

输入示例 JSON 记录，输入文件的每行一个。

{"review_id":"Amo5gZBvCuPc_tZNpHwtsA","user_id":"DzZ7piLBF-WsJxqosfJgtA","business_id":"qx6WhZ42eDKmBchZDax4dQ","星星":5.0,"有用":1,"有趣":0 ,"cool":0,"text":"我们的家人喜欢这里的食物。快捷、友好、美味，是一家适合带 child 去的很棒的餐厅。5 颗星!","date":"2017-03-27 01 :14:37"}

最佳答案

首先，你的

path 'file://localhost/Users/.../DSC_Intro/'

不是有效的 python 代码。如果您尝试这样执行，您将收到无效语法错误。那么，我假设这只是显示路径变量的值。我不知道这些省略号是字面意思还是您的环境截断 path 显示的结果。我在这里假设您的路径是系统的有效文件 URL，因为这里考虑不正确的路径似乎没有密切关系。

无论哪种方式，是的，read_json 可以从您指定的文件 URL 中读取 json(我在那里学到了一些东西)，如果您一次性读取它:

pd.read_json(fname, lines=True)

但是如果您尝试从中创建一个阅读器，请指定

pd.read_json(fname, lines=True, chunksize=...)

然后你就得到了

TypeError: sequence item 0: expected str instance, bytes found

其次，是的，用 StringIO 包装你的类似文件的参数可以使这个错误消失，但它对你可能认为的任何原因都没有帮助，并且它的使用是基于对你指向的 pandas 文档的误读。

我将在此处引用 read_json 文档中的一些内容:

Signature: pd.read_json( path_or_buf=None, ...

path_or_buf : a valid JSON string or file-like, default: None The string could be a URL. Valid URL schemes include http, ftp, s3, gcs, and file. For file URLs, a host is expected. For instance, a local file could be file://localhost/path/to/table.json

因此，使用 read_json，您可以给它一个有效 JSON 的实际字符串，也可以给它一个指向包含 JSON 的文件的类文件对象。

您引用的 pandas 文档中的注意事项:

In [258]: jsonl = '''
   .....:     {"a": 1, "b": 2}
   .....:     {"a": 3, "b": 4}
   .....: '''
   .....:

是 JSON，而不是路径。当他们的例子这样做时:

df = pd.read_json(jsonl, lines=True)

它只是解析字符串中的 JSON - 这里不涉及文件。当它想要演示从文件中分块读取时，它会这样做

# reader is an iterator that returns `chunksize` lines each iteration
In [262]: reader = pd.read_json(StringIO(jsonl), lines=True, chunksize=1)

换句话说，它们通过 StringIO() 包装 JSON 字符串，而不是路径。这仅用于文档示例的目的，因此您可以看到，如果您将 JSON 字符串视为从文件中读取，则可以分块读取它。这就是 StringIO() 的作用。因此，当您将描述文件 URL 的字符串包装在 StringIO() 中时，我希望 read_json 会尝试将该字符串解释为从文件读取的 JSON 并解析它。它失败是可以理解的，因为它不是 JSON。

这让我们回到了为什么 read_json 无法分块读取文件 URL 的问题。我对此没有立即好的答案。我怀疑它在于 read_json 如何打开文件 URL 的内部结构，或者其背后的函数是什么。如果您有意或被迫从文件 URL 进行此分块，那么我怀疑您会考虑控制文件打开的模式，或者可能以某种方式为 read_json 提供明确的指导> 如何解释它获得的字节流。我不确定像 urllib2 这样的库在这里可能有用。

但是让我们在这里讨论最佳解决方案。为什么我们尝试将路径指定为文件 URL？只需将您的路径指定为操作系统路径，例如

path = '/path/to/my/data/'

然后

filename = path + 'yelp_dataset/review_100.json'

# create a reader to read in chunks
review_reader = pd.read_json(filename, lines=True, chunksize=10)

我敢打赌它会按预期工作! (这对我来说是这样，一如既往)。警告:Windows 不使用正斜杠路径分隔符，并且通过以上述方式连接字符串来构造路径可能很脆弱，但通常如果您使用“正确的”正斜杠分隔符(微笑)，体面的语言内部会理解这一点。它使用反斜杠构建路径，这肯定会给您带来痛苦。但请留意这一点。

关于python - ValueError 使用 pd.read_json 读取大数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56727700/

25

4

0

文章推荐： opencv - 在基础图像 OpenCV Python 上叠加热图

文章推荐： c# - 请求线程在不强制退出的情况下退出？

文章推荐： c# - CSLA 可编辑网格

文章推荐： c# - linq to sql where子句有什么不同

javascript - 使用 WebScriptEndpoint 使用 javascript 使用 WCF 服务
我在网上搜索但没有找到任何合适的文章解释如何使用 javascript 使用 WCF 服务，尤其是 WebScriptEndpoint。任何人都可以对此给出任何指导吗？谢谢最佳答案这是一篇关于
c - 没有结果!!使用 fork() 使用 dup2 使用 2 个管道运行 execlp()
我正在编写一个将运行 Linux 命令的 C 程序，例如: cat/etc/passwd | grep 列表 |剪切-c 1-5 我没有任何结果 *这里 parent 等待第一个 child (chi
python - 处理文件上传，使用 Pillow 调整大小，使用 SQLAlchemy 存储，使用 Flask 提供文件
所以我正在尝试处理文件上传，然后将该文件作为二进制文件存储到数据库中。在我存储它之后，我尝试在给定的 URL 上提供文件。我似乎找不到适合这里的方法。我需要使用数据库，因为我使用 Google 应用引
excel - 使用 IF 使用 VBA 在单元格中添加公式的问题
我正在尝试制作一个宏，将下面的公式添加到单元格中，然后将其拖到整个列中并在 H 列中复制相同的公式我想在 F 和 H 列中输入公式的数据 Range("F1").formula = "=IF(ISE
使用 OperatorPrecedenceParser 使用 FParsec 解析函数应用程序？
问题类似于this one ，但我想使用 OperatorPrecedenceParser 解析带有函数应用程序的表达式在 FParsec . 这是我的 AST: type Expression =
sql - 使用 sequelize 使用 where 查询编码计数
我想通过使用 sequelize 和 node.js 将这个查询更改为代码取决于在哪里 select COUNT(gender) as genderCount from customers where
bash - 使用 “let”分配Bash失败，使用 “/”
我正在使用GNU bash，版本5.0.3(1)-发行版(x86_64-pc-linux-gnu)，我想知道为什么简单的赋值语句会出现语法错误: #/bin/bash var1=/tmp
javascript - 使用 JavaScript 使用 FOR OF 数组循环时出现错误？
这里，为什么我的代码在 IE 中不起作用。我的代码适用于所有浏览器。没有问题。但是当我在 IE 上运行我的项目时，它发现错误。而且我的 jquery 类和 insertadjacentHTMl 也不
javascript - 使用 javascript 使用 for 属性更改表单标签内容
我正在尝试更改标签的innerHTML。我无权访问该表单，因此无法编辑 HTML。标签具有的唯一标识符是“for”属性。这是输入和标签的结构:
javascript - 使用 jquery 使用 .on() 将事件附加到页面上的动态插入按钮
我有一个页面，我可以在其中返回用户帖子，可以使用一些 jquery 代码对这些帖子进行即时评论，在发布新评论后，我在帖子下插入新评论以及删除按钮。问题是 Delete 按钮在新插入的元素上不起作用，
使用 awk 使用 sha1sum 进行散列
我有一个大约有 20 列的“管道分隔”文件。我只想使用 sha1sum 散列第一列，它是一个数字，如帐号，并按原样返回其余列。使用 awk 或 sed 执行此操作的最佳方法是什么？ Accounti
mysql - 使用 insert into 使用 mysql
我需要将以下内容插入到我的表中...我的用户表有五列 id、用户名、密码、名称、条目。 (我还没有提交任何东西到条目中，我稍后会使用 php 来做)但由于某种原因我不断收到这个错误:#1054 - U
jquery - 将输入字段值修剪为仅字母数字字符/使用 .使用 jQuery
所以我试图有一个输入字段，我可以在其中输入任何字符，但然后将输入的值小写，删除任何非字母数字字符，留下“。”而不是空格。例如，如果我输入: 地球的 70% 是水，-!*#$^^ & 30% 土地输
javascript - 使用 .innerHTML 使用 DOM
我正在尝试做一些我认为非常简单的事情，但出于某种原因我没有得到想要的结果？我是 javascript 的新手，但对 java 有经验，所以我相信我没有使用某种正确的规则。这是一个获取输入值、检查选择
php - 使用 angularjs 使用 where 子句从数据库获取数据
我想使用 angularjs 从 mysql 数据库加载数据。这就是应用程序的工作原理；用户登录，他们的用户名存储在 cookie 中。该用户名显示在主页上我想获取这个值并通过 angularjs
ios - 使用 UITableViewCell 使用 AutoLayout
我正在使用 autoLayout，我想在 UITableViewCell 上放置一个 UIlabel，它应该始终位于单元格的右侧和右侧的中心。这就是我想要实现的目标所以在这里你可以看到我正在谈论的
mysql - 使用 ElasticSearch 使用 or 和运算符搜索多个字段
我需要与 MySql 等效的 elasticsearch 查询。我的 sql 查询: SELECT DISTINCT t.product_id AS id FROM tbl_sup_price t
ios - 使用 Swift 使用 JSON
我正在实现代码以使用 JSON。 func setup() { if let flickrURL = NSURL(string: "https://api.flickr.com/
javascript - 使用 JavaScript 使用 for 循环声明变量
我尝试使用for循环声明变量，然后测试cols和rols是否相同。如果是，它将运行递归函数。但是，我在 javascript 中执行 do 时遇到问题。有人可以帮忙吗？现在，在比较 col.1 和
jquery - 使用 :after 使用 jquery 更改样式
我举了一个我正在处理的问题的简短示例。 HTML代码: 1 2 3 CSS 代码: .BB a:hover{ color: #000; } .BB > li:after {

首页

博学

6Ren·AI

商城

python - ValueError 使用 pd.read_json 读取大数据集