python - 使用 Pandas 解析 JSON - 附加\转义字符的问题-6ren

python - 使用 Pandas 解析 JSON - 附加\转义字符的问题

转载作者：太空宇宙更新时间：2023-11-03 17:28:50

25

4

我正在从 S3 下载包含 JSON(类似)数据的文件，我打算使用 pd.read_json 将其解析为 Pandas 数据帧。。

我的问题是转储到 S3 存储桶中的文件对非英语字符使用“八进制转义”格式，但 Python/Pandas 反对 \ 的转义这一事实性格也包括在内。

一个例子是字符串:"destination":"Provence-Alpes-C\\303\\264te d\'Azur"

打印为:

如果我手动删除 \ 之一然后 Python 愉快地解释该字符串并将其打印为:

这里有一些好东西thread尽管.decode('string_escape')在单个片段上效果很好，当它是包含数千条记录的更长字符串的一部分时，它就不起作用了。

我相信我需要一种巧妙的方法来替换 \\与 \但出于有据可查的原因，.replace('\\', '\')不起作用。

为了让文件完全正常工作，我使用正则表达式删除了所有 \后跟一个数字:re.sub(r'\\(?=[0-9])', '', g) - 我认为对此进行调整可能是前进的方向，但数字需要是动态的，因为我不知道它会是什么(即，在上面的示例中使用 \3 和 \2 是行不通的去工作')

感谢帮助。

最佳答案

不要让 Python 解释 \ooo 八进制转义符，而是使用正则表达式修复 JSON，然后将其解析为 JSON。我之前在 similar circumstances 中这样做过

您的数据将 UTF-8 字节转义为八进制 \ooo 序列，因此您要在此处查找更有限的值范围:

import re

invalid_escape = re.compile(r'\\([1-3][0-7]{2}|[1-7][0-7]?)')  # octal digits from 1 up to FF
def replace_with_codepoint(match):
    return chr(int(match.group(0)[1:], 8))

def repair(brokenjson):
    return invalid_escape.sub(replace_with_codepoint, brokenjson)

演示:

>>> import json
>>> sample = '{"destination":"Provence-Alpes-C\\303\\264te d\'Azur"}'
>>> repair(sample)
'{"destination":"Provence-Alpes-C\xc3\xb4te d\'Azur"}'
>>> json.loads(repair(sample))
{u'destination': u"Provence-Alpes-C\xf4te d'Azur"}
>>> print json.loads(repair(sample))['destination']
Provence-Alpes-Côte d'Azur

关于python - 使用 Pandas 解析 JSON - 附加\转义字符的问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32204319/

25

4

0

文章推荐： html - 将图像放入也有标题的 div 中？

文章推荐： html - 样式化输入类型 ="file"按钮

文章推荐： c# - 类型 T 的动态通用声明

css - 如何调整 Firefox 附加 SDK 弹出窗口/面板的大小？ Firefox 附加 SDK 弹出窗口/面板太小
我关注了 tutorial on creating a popup for an add-on在 Firefox 中，效果很好。我现在遇到的问题是它创建的弹出窗口不会更改大小以适应我添加到其中的内容
覆盖后的FFmpeg concat(附加)
我有一些视频，我需要连接一个标题并添加一些覆盖，问题是我需要先做覆盖，否则时间不正确，然后才将标题连接到视频的开头 ffmpeg -i talk.mp4 -i start_pancarte.png
Powershell 附加 CSV
我正在尝试附加一个 CSV 文件。这是我正在使用的线路。不幸的是，我找不到 export-csv 的附加选项。任何想法都有助于使其发挥作用。 Get-ADGroupMember "Domain Adm
Java 附加 API
我正在努力理解 Attach API (com.sun.tools.attach.*) 的用途。它的典型用途是什么？它是为了“模拟”JVM，以便您可以在不部署/启动代码的情况下测试您的代码吗？它是一个
python - BeautifulSoup 附加
我不明白为什么这不起作用。 soup_main = BeautifulSoup('FooBar') soup_append = BeautifulSoup('Meh') soup_main.body.
php - 附加 where 子句
我有以下代码来返回我想要的字符串 $sql = " SELECT `description` FROM `auctions` WHERE `description` REGEX
Javascript 附加 - 使用数组中的值附加多个元素
我正在尝试从数组中附加具有多个值的元素，但我做错了。这是我的代码: for(var i=0; i ` + pricesArray[i].start_date ` ` + pricesArray[i
附加 Javascript 图像吗？
我正在尝试将图像链接添加到此 javascript 附加表中。使图像位于按钮上方这是代码 $("#1").append(""+section+""+no+""+price+""+button+""
Javascript 附加 + 单击删除它们
我有一个问题，我已经解决了，但它太烦人了。我有一个 js 代码，当使用“追加”按下按钮时，它会放下一些 html 代码，并且通过该代码，我为 x 按钮提供了一个 id，并为容器元素提供了一个 id。
go - “附加”的工作方式是什么？
我想逐行读取文件，并且每一行可能都有很多字符。这个版本的readline效果很好 func readLine(r *bufio.Reader) ([]byte, error) { var (
php - 在文本文件中创建或写入/附加
我有一个网站，每次用户登录或注销时，我都会将其保存到文本文件中。如果不存在，我的代码在附加数据或创建文本文件时不起作用。这是示例代码 $myfile = fopen("logs.txt", "wr"
reactjs - typescript 附加 Prop
我正在尝试使用 typescript 和 Formik 创建一个自定义输入字段。我可以就完成以下代码的最佳方式获得一些帮助吗？我需要添加额外的 Prop 标签和名称......我已经坚持了一段时间，希
jQuery 附加 html 与附加现有元素
我有一个字符串 big_html，我想将它添加到某个 div 中。我观察到以下方面的性能差异: $('#some-div').append( big_html ); // takes about 10
json - FormData 附加 JSON
如何使用 FormData 创建以下结果 ------WebKitFormBoundaryOmz20xyMCkE27rN7 Content-Disposition: form-data; name="
jquery - 附加 jQuery 事件处理程序以便首先触发它们
有没有办法附加 jQuery 事件处理程序，以便在任何先前附加的事件处理程序之前触发该处理程序？我遇到了this article ，但代码不起作用，因为事件处理程序不再存储在数组中，而这正是他的代码所
iphone - 附加 XCode 调试器
我正在开发一个需要网络登录的 iPhone 应用程序。像往常一样我打电话 [[UIApplication sharedApplication] openURL:loginURL]; 这将关闭应用程序并
firefox-addon - 如何制作仅可用于特定站点的Firefox扩展(附加)？
我想开发一个仅针对特定域激活的扩展。我不希望它在不浏览此特定域时出现在浏览器菜单中。有可能这样做吗？最佳答案可能：对于菜单，您可以添加一个弹出窗口侦听器，用于检查当前加载的URL（docs f
javascript - 附加 cookie 的新值
这段 JavaScript 代码 function writeCookie(CookieName, CookieValue, CookieDuration) { var expiration
javascript - jQuery 附加 Handlebars
我正在使用 Handlebars 来渲染使用ajax从本地服务器获得的信息。我的 HTML 看起来像: {{#each Tabs}}
javascript - 附加 html 后欧芹不起作用
我尝试了以下代码，但当输入框中没有数据时它不会通知。当我直接添加此内容(不附加)时，它会起作用。我在这里做错了什么 var output = "\n"+ "\n"+

首页

博学

6Ren·AI

商城

python - 使用 Pandas 解析 JSON - 附加\转义字符的问题