gpt4 book ai didi

php - 将字符串清理为 UTF-8 的最佳 PHP 方法/类是什么

转载 作者:搜寻专家 更新时间:2023-10-31 21:15:12 24 4
gpt4 key购买 nike

我一直在一个简单的类上使用几个方法,它们对我来说工作正常,但我注意到它们真的很慢,因为 strtr() 并且有很多定义的翻译。而且它真的很长,因此更难维护和理解。

也就是说,所有“坏”示例都是对已出现的现实问题的解决方案,将字符串转换为 UTF8。

谁能告诉我有一个众所周知的或更有效的方法来做到这一点? (是的,我已经尝试了 htmlentities() 方法和 iconv() 方法,但都没有真正正确地替换所有时髦的字符。

这是我目前正在使用的类: https://gist.github.com/2559140

最佳答案

从 PHP 5.4.0 开始,mbstring 支持现在默认启用(但未加载)。加载扩展,这让您可以:

<? //PHP 5.4+
$ensureIsUTF8 = static function($data){
$dataEncoding = \mb_detect_encoding(
$data,
['UTF-8', 'windows-1251', 'iso-8859-1', /*others you encounter*/],
true
);

//UTF-16/32 encoding detection always fails for PHP <= 5.4.1
//Use detection code copied from PHP docs comments:
//http://www.php.net/manual/en/function.mb-detect-encoding.php
if ($dataEncoding === false){

$UTF32_BIG_ENDIAN_BOM = chr(0x00) . chr(0x00) . chr(0xFE) . chr(0xFF);
$UTF32_LITTLE_ENDIAN_BOM = chr(0xFF) . chr(0xFE) . chr(0x00) . chr(0x00);
$UTF16_BIG_ENDIAN_BOM = chr(0xFE) . chr(0xFF);
$UTF16_LITTLE_ENDIAN_BOM = chr(0xFF) . chr(0xFE);

$first2 = \substr($data, 0, 2);
$first4 = \substr($data, 0, 4);

if ($first4 === $UTF32_BIG_ENDIAN_BOM) {
$dataEncoding = 'UTF-32BE';
} elseif ($first4 === $UTF32_LITTLE_ENDIAN_BOM) {
$dataEncoding = 'UTF-32LE';
} elseif ($first2 === $UTF16_BIG_ENDIAN_BOM) {
$dataEncoding = 'UTF-16BE';
} elseif ($first2 === $UTF16_LITTLE_ENDIAN_BOM) {
$dataEncoding = 'UTF-16LE';
} else {
throw new \Exception('Whoa! No idea what that was.');
}
}

if ($dataEncoding === 'UTF-8'){
return $data;
} else {
return \mb_convert_encoding(
$data,
'UTF-8',
$dataEncoding
);
}
};

$utf8Data = $ensureIsUTF8(\file_get_contents('something'));
$utf8Data = $ensureIsUTF8(\file_get_contents('http://somethingElse'));
$utf8Data = $ensureIsUTF8($userProvidedData);
?>

关于php - 将字符串清理为 UTF-8 的最佳 PHP 方法/类是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10386206/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com