python - UTF-16 到 Ascii 忽略十进制值大于 127 的字符-6ren

python - UTF-16 到 Ascii 忽略十进制值大于 127 的字符

转载作者：太空宇宙更新时间：2023-11-04 11:00:02

25

4

我知道这个问题有很多解决方案，但我的解决方案在某种意义上很特殊，我可能会得到截断的 utf16 数据，但必须尽最大努力处理解码和编码将因 UnicodeDecodeError 失败的转换。所以在python中想出了以下代码。请让我知道您对我如何改进它们以加快处理速度的意见。

    try:
        # conversion to ascii if utf16 data is formatted correctly
        input = open(filename).read().decode('UTF16')
        asciiStr = input.encode('ASCII', 'ignore')
        open(filename).close()
        return asciiStr
    except:
        # if fail with UnicodeDecodeError, then use brute force 
        # to decode truncated data
        try:
            unicode = open(filename).read()
            if (ord(unicode[0]) == 255 and ord(unicode[1]) == 254):
                print("Little-Endian format, UTF-16")
                leAscii = "".join([(unicode[i]) for i in range(2, len(unicode), 2) if 0 < ord(unicode[i]) < 127])
                open(filename).close()
                return leAscii
            elif (ord(unicode[0]) == 254 and ord(unicode[1]) == 255):
                print("Big-Endian format, UTF-16")
                beAscii = "".join([(unicode[i]) for i in range(3, len(unicode), 2) if 0 < ord(unicode[i]) < 127])
                open(filename).close()
                return beAscii
            else:
                open(filename).close()
                return None
        except:
            open(filename).close()
            print("Error in converting to ASCII")
            return None

最佳答案

关于:

data = open(filename).read()
try:
    data = data.decode("utf-16")
except UnicodeDecodeError:
    data = data[:-1].decode("utf-16")

即如果它在代码单元的中途被截断，则剪掉最后一个字节，然后再做一次。这应该让您回到有效的 UTF-16 字符串，而不必尝试自己实现解码器。

关于python - UTF-16 到 Ascii 忽略十进制值大于 127 的字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6361775/

25

4

0

文章推荐： java - 设置调试环境 - Intellij Tomcat Maven

文章推荐： javascript - 切换汉堡菜单

文章推荐： java - 数组中非 0 的最小数字

文章推荐： java - Android Studio 3.0 运行时异常

c++ - 如何正确解释数字(十六进制、十进制、十进制)
我正在尝试编写一个程序，该程序接受十六进制、八进制和小数的输入，将它们存储在整数变量中，并将它们连同它们转换为十进制形式一起输出。例如: 用户输入:0x43、0123、65 程序输出: 0x43 he
javascript 正则表达式十进制
var re = /^([0-9]*)(\.[0-9]{2})$/ re.test(.22) true re.test(.20) false re.test(10.02) true re.test(1
grails - Grails中输入字段的动态格式化(十进制)
我有一个类型为BigDecimal的属性“initialPrice”的“Trade”类。该属性可以根据另一个类别“Symbol”中包含的属性“decimals”，小数位数会有所不同，因此需要使用不同
c# - 使用数组进行统计(十进制)
我是这里编码的新手。我正在尝试使用编码来显示平均值、最大值和最小值的统计信息。我遇到了错误，他们说我无法将 decimal[] 转换为 int[]。我在我的代码旁边评论了下面的错误。这是最后几行之
C#:十进制 -> 可以精确存储的最大整数
在不久的将来，我一直在研究小数类型以获得一些可能的编程乐趣，并希望将它用作比 Int64 更大的整数。一个关键点是我需要找出我可以安全地存储为小数(不丢失精度)的最大整数；我这样说，因为显然它在那里使
c - 如何将地址转换为网络掩码(十进制)
所以我这样做了: for(i=1;i0;i--) { if(MASKBINARY[i-1]==1 && MASKBINARY[i]==0) // check if the next eleme
javascript - 四舍五入到最接近的指定数字(十进制)
我正在尝试将数字四舍五入到最接近的指定小数。我希望它四舍五入到小数点 .11、.22、.33、.44、.55、.66、.77、.88 但不是 .99。相反，0.99 应该是 1。例如: 1.14
Python 十进制 modf
获取 python (python 3) Decimal 的整数部分和小数部分的最有效方法是什么？这是我现在拥有的: from decimal import * >>> divmod(Decimal
CSS:删除列表样式类型中的句点:十进制
我有一个使用十进制列表样式的 ol: ol li { list-style-type: decimal; } First Second 编号工作正常，但如何删除句点？而不是显示: 1.
Java泛型将字节数组转换为字符串(非十六进制，十进制)
将字节数组转换为具有所选基数的字符串的最佳方法是什么？ S.O. 上有大量示例。和其他地方转换为十六进制字符串。我在这里主要感兴趣的是将十六进制或十进制字符串转换为其他；也是一种更通用的方式。这是我
c# sizeof 十进制？
不清楚十进制类型的 sizeof。以字节为单位的大小是否像在 sql server 中一样因精度而异？ c# 类型的精度变量是“十进制”吗？我不想打开不安全的代码来只调用小数类型的 sizeof。你
C# 十进制，如何添加尾随零
我必须向十进制值添加尾随零。不仅用于显示(因此 Format 不是一个选项)，而且用于实际的底层数据，因为小数精度在我们的应用程序中很重要。我试过: decimal value = 1M decim
c# - 十进制？类型不是特定于文化的
我正在使用以下代码行将 decimal 转换为 string: decimal a = 0; a.ToString(); Resharper 给了我以下警告:“明确指定字符串区域性”。我想这是有道理的
c# - 十进制 - 截断尾随零
我注意到 .NET 在涉及小数和尾随零时有一些古怪/不直观的行为。 0m == 0.000m //true 0.1m == 0.1000m //true 但是 (0m).ToString() == (
C语言:十进制,BCD码互换详解
最近写单片机 RTC 日期、时间配置，需要实现十进制、BCD码互换，将示例Demo分享给各位朋友： BCD是指用二进制来表示十进制数的编码，即：用4位二进制来表示一位十进制数，因此4位二进制数
C# 十进制(字符串类型)在最后一个字符处四舍五入
这似乎是重复的，但我找不到合适的答案(问题足够接近但是..)我有一个代表十进制数的字符串，它总是有很多小数位，至少 20，有时最多 2000 (代表特定的验证计算，即像'是数字 135 到 147 素
hex - 十进制 <--> 二进制补码 <--> 十六进制转换
我想知道我是否会收到这样的问题: "Convert a decimal number to two's complement, then give your answer in Hex". 下面是路径
sql - 存储过程返回 .00 十进制
此存储过程不返回十进制格式 00.00 的薪水 ALTER PROCEDURE taxable_varsalary @emp_code bigint, @co_id bigint AS de
r - 传单setView缩放级别为R中的非整数(十进制)值？
使用 leaflet R 包，有没有办法将 zoom 设置为非整数(即十进制)值？也就是说，介于这两个缩放级别之间: 例子随着 zoom 从第 3 级移动到第 4 级，它看起来好像正在四舍五入到最
string - 如何将数字字符串转换为数字(十进制)和数字到字符串
我如何编写一个函数来将十进制数字符串转换为十进制数并将十进制数转换为字符串？最佳答案有非常方便的 clojure 函数可以将任何内容转换为字符串以及将类似数字的内容转换为 BigDecimal:

首页

博学

6Ren·AI

商城

python - UTF-16 到 Ascii 忽略十进制值大于 127 的字符