gpt4 book ai didi

python - 如果字符串仅包含来自特定代码页的字符,如何检查 python?

转载 作者:太空宇宙 更新时间:2023-11-04 10:41:34 25 4
gpt4 key购买 nike

我知道 python 仅使用 utf8 进行字符串编码,但是如果我需要将数据发送到非 unicode 的旧应用程序并且仅支持包含在 windows 代码页中的这些字符,如 windows-1251(cyrylic)怎么办等等...所以在这里我想检测 utf-8 字符串是否包含给定代码页无法表示的任何字符。

最佳答案

有用于编码检测的库:https://pypi.python.org/pypi/chardet (Python 中的字符编码自动检测。与您的浏览器一样智能。开源)

检测...

  • ASCII、UTF-8、UTF-16(2 种变体)、UTF-32(4 种变体)
  • Big5、GB2312、EUC-TW、HZ-GB-2312、ISO-2022-CN(繁体和简体中文)
  • EUC-JP、SHIFT_JIS、ISO-2022-JP(日语)
  • EUC-KR、ISO-2022-KR(韩语)
  • KOI8-R、MacCyrillic、IBM855、IBM866、ISO-8859-5、windows-1251(西里尔文)
  • ISO-8859-2、windows-1250(匈牙利语)
  • ISO-8859-5、windows-1251(保加利亚语)
  • windows-1252(英文)
  • ISO-8859-7、windows-1253(希腊语)
  • ISO-8859-8、windows-1255(视觉和逻辑希伯来语)
  • TIS-620(泰语)

来自文档的示例:

>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}

关于python - 如果字符串仅包含来自特定代码页的字符,如何检查 python?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20353716/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com