gpt4 book ai didi

PHP:将 "’“字符从 ISO-8859-1 转换为 UTF-8 时出现问题

转载 作者:可可西里 更新时间:2023-11-01 13:39:33 26 4
gpt4 key购买 nike

我在使用 PHP 将 ISO-8859-1 数据库内容转换为 UTF-8 时遇到了一些问题。我正在运行以下代码进行测试:

// Connect to a latin1 charset database 
// and retrieve "Georgia O’Keeffe", which contains a "’" character
$connection = mysql_connect('*****', '*****', '*****');
mysql_select_db('*****', $connection);
mysql_set_charset('latin1', $connection);
$result = mysql_query('SELECT notes FROM categories WHERE id = 16', $connection);
$latin1Str = mysql_result($result, 0);
$latin1Str = substr($latin1Str, strpos($latin1Str, 'Georgia'), 16);

// Try to convert it to UTF-8
$utf8Str = iconv('ISO-8859-1', 'UTF-8', $latin1Str);

// Output both
var_dump($latin1Str);
var_dump($utf8Str);

当我在 Firefox 的源 View 中运行它时,确保 Firefox 的编码设置设置为“西方 (ISO-8859-1)”,我得到这个:

asd

到目前为止,还不错。第一个输出包含那个奇怪的引用,我可以正确地看到它,因为它在 ISO-8859-1 中,Firefox 也是如此。

在我将 Firefox 的编码设置更改为“UTF-8”后,它看起来像这样:

asd

报价去了哪里? iconv() 不是应该将其转换为 UTF-8 吗?

最佳答案

U+2019 右单引号不是 ISO-8859-1 中的字符。是windows-1252中的一个字符, 为 0x92。实际的 ISO-8859-1 字符 0x92 是一个很少使用的 C1 control character称为“私有(private)使用 2”。

It is very common to mislabel Windows-1252 text data with the charset label ISO-8859-1. Many web browsers and e-mail clients treat the MIME charset ISO-8859-1 as Windows-1252 characters in order to accommodate such mislabeling but it is not standard behaviour and care should be taken to avoid generating these characters in ISO-8859-1 labeled content.

看来这就是这里发生的事情。将“ISO-8859-1”更改为“windows-1252”。

关于PHP:将 "’“字符从 ISO-8859-1 转换为 UTF-8 时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3714061/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com