gpt4 book ai didi

python - 事后修复损坏的文本

转载 作者:行者123 更新时间:2023-11-28 21:38:08 25 4
gpt4 key购买 nike

上个月我为 this 制作了一个刮板拉丁语词典。它终于完成了执行(该网站给了我每页 6 到 8 秒的响应时间)。不幸的是,我发现我的很大一部分数据严重受损......
例如。 commandūcor ----> 命令\xc5\xabcor || commandūcāris ----> 命令\xc5\xabc\xc4\x81ris

我犯了一个愚蠢的错误,对从请求中获得的原始数据使用了 str() 函数。就像这样:

import requests

r = requests.get("https://www.dizionario-latino.com/dizionario-latino-
flessione.php?lemma=COMMANDUCOR100", verify = False)

out = str(r.content)

with open("test.html", 'w') as file:
file.write(out)

如果有人能帮助我恢复损坏的文本,我将不胜感激。提前致谢!

最佳答案

只是.decode他们使用 utf-8(默认)。您可以在 Python 的 Unicode howto 中阅读有关字符编码的更多信息。 .

b'command\xc5\xabcor'.decode()  # 'commandūcor'
b'command\xc5\xabc\xc4\x81ris'.decode() # 'commandūcāris'

关于python - 事后修复损坏的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48610410/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com