gpt4 book ai didi

php - 替换 PHP 字符串中的特殊字符的问题

转载 作者:行者123 更新时间:2023-12-03 02:37:43 29 4
gpt4 key购买 nike

我正在尝试将 PHP 字符串中的特殊字符替换为普通字符(例如将 ó 替换为 o,将 á 替换为 a)。我尝试使用 PHP Normalizer::normalize 函数,如以下代码所示:

if (!Normalizer::isNormalized($word, Normalizer::FORM_C))
{
echo "original: ".$word;
$word = Normalizer::normalize($word, Normalizer::FORM_C);

echo "\tnormalized: ".$word."<br />";
exit; // see if it worked without having to go through every file
}

但是,Normalizer::normalize 返回 null,该代码的输出为:

原始:adiós 标准化:

由于这个方法似乎不起作用,我去找了一个应该删除特殊字符的函数。这是函数:

function normalize ($string) {
$table = array(
'Š'=>'S', 'š'=>'s', 'Đ'=>'Dj', 'đ'=>'dj', 'Ž'=>'Z', 'ž'=>'z', 'Č'=>'C', 'č'=>'c', 'Ć'=>'C', 'ć'=>'c',
'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E',
'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O',
'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss',
'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e',
'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o',
'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b',
'ÿ'=>'y', 'Ŕ'=>'R', 'ŕ'=>'r',
);

return strtr($string, $table);
}

但是,此代码没有明显的效果,并且返回了传入的相同字符串。

我正在从 Windows 7 中的 *.txt 文件获取字符串。我从来不擅长编码,并且非常感谢有关此问题的任何帮助。

最佳答案

此页面有一个很棒的提示:How to remove diacritics from text?这是我的版本:

/** Normalize a string so that it can be compared with others without being too fussy.
* e.g. "Ádrèñålînë" would return "adrenaline"
* Note: Some letters are converted into more than one letter,
* e.g. "ß" becomes "sz", or "æ" becomes "ae"
*/
function normalize_string($string) {
// remove whitespace, leaving only a single space between words.
$string = preg_replace('/\s+/', ' ', $string);
// flick diacritics off of their letters
$string = preg_replace('~&([a-z]{1,2})(?:acute|cedil|circ|grave|lig|orn|ring|slash|th|tilde|uml|caron);~i', '$1', htmlentities($string, ENT_COMPAT, 'UTF-8'));
// lower case
$string = strtolower($string);
return $string;
}

这很好,因为与上面提到的 iconv 方法不同,字符集之间没有转换(它们是一个雷区)。

关于php - 替换 PHP 字符串中的特殊字符的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11354195/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com