gpt4 book ai didi

php - PHP 中的编码转换(ISO-8859-1、UTF-8、CP1250)

转载 作者:行者123 更新时间:2023-12-04 00:31:13 25 4
gpt4 key购买 nike

我想处理 CSV 文件中的数据,但我意识到字母无法正确显示。我尝试了数百万种方法来转换编码,但没有任何效果。在 MacOS、PHP 7.4.4 上运行。

执行fgets()后或fgetcsv()在句柄变量上,我会得到这个(示例中为 2 行/行)。

Kód ADM;Kód obce;Název obce;Kód MOMC;Název MOMC;Kód MOP;Název MOP;Kód èásti obce;Název èásti obce;Kód ulice;Název ulice;Typ SO;Èíslo domovní;Èíslo orientaèní;Znak èísla orientaèního;PSÈ;Souøadnice Y;Souøadnice X;Platí Od

1234;1234;HorniDolni;;;;;1234;HorniDolni;;;è.p.;2;;;748790401;4799.98;15893971.21;2013-12-01T00:00:00

这或多或少是正确的捷克语,但字母 čè 取代和řø 取代,它们都不属于捷克字母表。我相信,文件中还会有更多错放的字母。

执行file -I path/to/file我收到file: text/plain; charset=iso-8859-1这是可悲的,因为就wiki而言令人担忧的是,该字符集不包含捷克字母。

以下命令均未转换放错位置的字母: mb_convert_encoding($line, 'UTF-8', 'ISO8859-1') iconv('ISO-8859-1', 'UTF-8', $line) iconv('ISO8859-1', 'UTF-8', $line)

我注意到 ISO-8859-1 ø信件有一个代码00F8Windows-1250 (包括捷克语 aplhabet)有正确的字母 ř代码 0159 但两者前面都有 00F8 。与字母 č 相同和è前面都有代码 00E7 。我对编码不太了解,但似乎文件是在 Windows-1250 中编码的,但解释器认为编码是 ISO-8859-1 并采用原始字母的位置/代码。

但这两种转换(ISO-8859-1 => Windows-1250、ISO-8859-1 => UTF-8 或其他方式)都不起作用。

有谁知道如何解决这个问题吗?谢谢!

最佳答案

8 位字符编码的问题在于它主要需要人类智能来解释正确的代码页。

当您在文件上运行 file 时,它可以发现该文件主要由可打印字符组成,但由于它只查看字节,因此无法轻松区分ISO-8895-1 和 ISO-8895-2。对于文件0x800x80相同。

由于使用了 0x80-0xFF

file 只能判断该文件是文本文件,可能是 iso-8895-* 或 windows-*。 IE。不仅仅是 ASCII。

(Unicode 编码,如 UTF-8 和 UTF-16,通过其字节序列或文件顶部设置的字节顺序标记更容易检测)

有一些智能字符代码页检测器,在不同语言的字典的帮助下,可以根据字符/字节序列估计代码页。

您可能需要的转换只是iso-8895-2 -> UTF-8

对您来说重要的是您知道原始编码(解释),然后当您验证它时,您确切地知道您正在查看它的编码。

例如,PHP 默认将 HTTP 字符集设置为 iso-8895-1。这意味着您很可能正确转换为 iso-8895-2,但您的浏览器随后将“解释”为 iso-8895-1

验证的最佳方法是将文件保存到磁盘,然后使用 VS Code 等文本编辑器预先设置为所需的编码,然后再打开文件。

如果您需要进一步帮助,您需要编辑您的问题以包含您正在使用的确切代码。

关于php - PHP 中的编码转换(ISO-8859-1、UTF-8、CP1250),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61325864/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com