gpt4 book ai didi

python - 带有中文字符的 JSON 的 scrapy 管道

转载 作者:太空宇宙 更新时间:2023-11-04 04:26:29 25 4
gpt4 key购买 nike

我正在尝试抓取一些带有中文字符的网页内容。内容如下所示

2018-11-20 12:42:18 [scrapy.core.scraper] DEBUG: Scraped from <200  https://cn.bing.com/dict/search?q=tool&FORM=BDVSP6&mkt=zh-cn>
{'defBing': '工具;方法;受人利用的人',
'defWeb': '工具;方法;受人利用的人',
'pClass': 'n.',
'prUK': 'UK\xa0[tuːl]',
'prUS': 'US\xa0[tul]',
'word': 'tool'}

但是经过流水线处理后,内容变成了这样:

{
"word": "tool",
"prUS": "US\u00a0[tul]",
"prUK": "UK\u00a0[tu\u02d0l]",
"pClass": "n.",
"defBing": "\u5de5\u5177\uff1b\u65b9\u6cd5\uff1b\u53d7\u4eba\u5229\u7528\u7684\u4eba",
"defWeb": "\u5de5\u5177\uff1b\u65b9\u6cd5\uff1b\u53d7\u4eba\u5229\u7528\u7684\u4eba"
}

管道看起来像:

class JsonWriterPipeline(object):
def open_spider(self, spider):
self.file = open('log/DICT.%s.json' % time.strftime('%Y%m%d-%H%M%S', time.localtime()), 'tw')

def close_spider(self, spider):
self.file.close()

def process_item(self, item, spider):
try:
line = json.dumps(dict(item), indent=4) + "\n"
self.file.write(line)
except Exception as e:
print(e)
return item

我的问题是:如何在 *.json 文件中保持汉字原样打印?我真的不想要那些编码的 Unicode 字符:)

最佳答案

似乎 json lib 转义了这些符号,尝试将 ensure_ascii=False 添加到 json.dumps() 中,如下所示:

class JsonWriterPipeline(object):
def open_spider(self, spider):
self.file = open('log/DICT.%s.json' % time.strftime('%Y%m%d-%H%M%S', time.localtime()), 'tw')

def close_spider(self, spider):
self.file.close()

def process_item(self, item, spider):
try:
line = json.dumps(dict(item), indent=4, ensure_ascii=False) + "\n"
self.file.write(line)
except Exception as e:
print(e)
return item

关于python - 带有中文字符的 JSON 的 scrapy 管道,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53395450/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com