- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 Perl 遗留应用程序,处理以 UTF-8
编码的 XML最有可能的是,它需要在某个数据库中存储该 XML 的一些数据,该数据库使用 windows-1252
由于历史原因。是的,这个设置不能支持 Unicode 标准的所有可能的字符,但实际上我不需要,并且可以尝试合理兼容。
当前的具体问题是一个包含 LATIN SMALL LETTER U, COMBINING DIAERESIS
的文件( U+0075 U+0308
),这使得 Perl 将 Unicode 字符串的现有编码打破为 windows-1252
但以下情况除外:
"\x{0308}" does not map to cp1252
我能够使用 Unicode::Normalize::NFKC 解决这个问题,这会创建字符 U+00FC
( ü
),它完美地映射到 windows-1252
。这当然会导致其他一些问题,例如如果是字符 VULGAR FRACTION ONE HALF
( ½
, U+00BD
),因为 NFKC
创建DIGIT ONE, FRACTION SLASH, DIGIT TWO
( 1/2
, U+0031 U+2044 U+0032
)为此,Perl 再次死亡:
"\x{2044}" does not map to cp1252
根据normalization rules ,这非常适合 NFKC
。我使用它是因为我认为它会给我最兼容的结果,但这是错误的。使用NFC
相反,解决了这两个问题,因为两个字符都提供了 normalization与 windows-1252
兼容在这种情况下。
对于规范化与 windows-1252
兼容的字符,此方法还会产生额外的问题。一般都可用,仅与NFC
不同。一个例子是 LATIN SMALL LIGATURE FI
( fi
, U+FB01
)。据其normalization rules ,是 NFC
之后的表示与 windows-1252
不兼容,同时使用NFKC
这次结果是两个与 windows-1252
兼容的字符:fi
(U+0066 U+0069
)。
我当前的方法是简单地尝试编码为 windows-1252
照原样,如果失败,我将使用 NFC
然后再试一次,如果失败我正在使用 NFKC
然后再试一次,如果失败我现在就放弃。这适用于我当前正在处理的情况,但如果上面示例中的所有三个字符同时出现在字符串中,则显然会失败。总有一个字符会导致 windows-1252
- 不兼容的输出,无论 NFC
的顺序如何和NFKC
。唯一的问题是哪个字符何时中断。
但重要的是,每个字符本身都可以标准化为与windows-1252
兼容的东西。 。只是似乎没有一劳永逸的解决方案。
那么,是否有一些我缺少的 API,它已经以最向后兼容的方式进行转换?
如果没有,我需要采取什么方法来支持一个字符串中的所有上述字符?
听起来我需要逐个 Unicode 字符处理每个字符串,并使用与 windows-1252
最兼容的内容单独进行规范化。然后再次连接结果。是否有一些增量 Unicode 字符解析器可以处理组合字符和已经存在的东西?一个简单的基于 Unicode 字符的正则表达式是否已经可以处理这个问题了?
Unicode::Normalize
提供额外的功能来处理 partial strings等等,但我必须承认我目前并不完全理解他们的目的。这些示例也侧重于串联,但根据我的理解,我首先需要一些解析才能以不同的方式规范化单个字符。
最佳答案
我不认为您缺少 API,因为相当涉及尽力而为的方法。我会尝试如下操作:
/\PM/g
提取未组合标记的所有代码点。这会丢弃 NFC 转换后剩余的所有组合标记,无论如何都无法转换为 Windows-1252。然后对于每个代码点:
当然还有其他方法可以将不受支持的字符转换为看起来相似的字符,但它们需要手动创建映射。
关于string - 如何使用 Unicode::Normalize 创建最兼容的 windows-1252 编码字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54260170/
如果您想使用 String.Concat() 连接 5 个或更多字符串,则它会使用 Concat(String[])。 为什么不一直使用 Concat(String[]) 而不再需要 Concat(S
今天在使用 String 时,我遇到了一种我以前不知道的行为。我无法理解内部发生的事情。 public String returnVal(){ return "5";
似乎在我所看到的任何地方,都有一些过时的版本,这些版本不再起作用。 我的问题似乎很简单。我有一个Java类,它映射到derby数据库。我正在使用注释,并且已经成功地在数据库中创建了所有其他表,但是在这
一、string::size_type() 在C++标准库类型 string ,在调用size函数求解string 对象时,返回值为size_type类型,一种类似于unsigned类型的int 数据
我正在尝试将数据保存到我的 plist 文件中,其中包含字符串数组的定义。我的plist - enter image description here 我将数据写入 plist 的代码是 -- let
我有一个带有键/值对的 JavaScript 对象,其中值是字符串数组: var errors = { "Message": ["Error #1", "Error #2"], "Em
例如,为了使用相同的函数迭代 List 和 List> ,我可以编写如下内容: import java.util.*; public class Test{ public static voi
第一个Dictionary就像 Dictionary ParentDict = new Dictionary(); ParentDict.Add("A_1", "1")
这是我的 jsp 文件: 我遇到了错误 The method replace(String, String, String) in the type Functions is not appl
我需要一些帮助。我有一个方法应该输出一个包含列表内容的 txt 文件(每行中的每个项目)。列表项是字符串数组。问题是,当我调用 string.Join 时,它返回文字字符串 "System.Strin
一位同事告诉我,使用以下方法: string url = "SomeURL"; string ext = "SomeExt"; string sub = "SomeSub"; string s
给定类: public class CategoryValuePair { String category; String value; } 还有一个方法: public
我正在尝试合并 Stream>>对象与所有 Streams 中的键一起映射到单个映射中. 例如, final Map someObject; final List>> list = someObjec
在这里使用 IDictionary 的值(value)是什么? 最佳答案 使用接口(interface)的值(value)始终相同:切换到另一个后端实现时,您不必更改客户端代码。 请考虑稍后分析您的代
我可以知道这两个字典声明之间的区别吗? var places = [String: String]() var places = [Dictionary()] 为什么当我尝试以这种方式附加声明时,只有
在 .NET 4.0 及更高版本中存在 string.IsNullOrWhiteSpace(string) 时,在检查字符串时使用 string.IsNullOrEmpty(string) 是否被视为
这个名字背后的原因是什么? SS64在 PowerShell 中解释此处的字符串如下: A here string is a single-quoted or double-quoted string
我打算离开 this 文章,尝试编写一个接受字符串和 &str 的函数,但我遇到了问题。我有以下功能: pub fn new(t_num: S) -> BigNum where S: Into {
我有一个结构为 [String: [String: String]] 的多维数组。我可以使用 for 循环到达 [String: String] 位,但我不知道如何访问主键(这个位 [String:
我正在尝试使用 sarama(管理员模式)创建主题。没有 ConfigEntries 工作正常。但我需要定义一些配置。 我设置了主题配置(这里发生了错误): tConfigs := map[s
我是一名优秀的程序员,十分优秀!