gpt4 book ai didi

unit-testing - 是否有一组 "Lorem ipsums"文件用于测试字符编码问题?

转载 作者:IT老高 更新时间:2023-10-28 11:39:37 27 4
gpt4 key购买 nike

对于布局,我们有著名的“Lorem ipsum”文本来测试它的外观。

我正在寻找的是一组包含用几种不同编码编码的文本的文件,我可以在我的 JUnit 测试中使用这些文件来测试一些在读取文本文件时处理字符编码的方法。

例子:

有一个 ISO 8859-1 编码的测试文件和一个 Windows-1252 编码的测试文件。 Windows-1252 必须触发区域 8016 – 9F16 的差异。换言之,它必须至少包含该区域的一个字符,才能将其与 ISO 8859-1 区分开来。

也许最好的测试文件集是每个编码的测试文件包含一次它的所有字符。但也许我不知道……我们都喜欢这种编码的东西,对吧? :-)

是否有这样一套针对字符编码问题的测试文件?

最佳答案

关于 diacritics 的维基百科文章非常全面,不幸的是您必须手动提取这些字符。每种语言也可能存在一些助记符。例如在波兰语中,我们使用:

Zażółć gęślą jaźń

在一个正确的句子中包含所有 9 个波兰语变音符号。另一个有用的搜索提示是 pangrams : 每个字母至少使用一次的句子:

  • in Spanish, "El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja." (all 27 letters and diacritics).

  • in Russian, "Съешь же ещё этих мягких французских булок, да выпей чаю" (all 33 Russian Cyrillic alphabet letters).

List of pangrams包含详尽的摘要。任何人都想把它包装成一个简单的:

public interface NationalCharacters {
String spanish();
String russian();
//...
}

图书馆?

关于unit-testing - 是否有一组 "Lorem ipsums"文件用于测试字符编码问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9190330/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com