gpt4 book ai didi

php - 将任何可转换的 utf8 char 音译成 ascii 等价物

转载 作者:IT王子 更新时间:2023-10-29 00:03:32 24 4
gpt4 key购买 nike

有没有好的解决方案可以很好地进行这种音译?

我试过使用 iconv(),但是很烦人,而且它的行为不像人们预期的那样。

  • 使用 //TRANSLIT 将尝试替换它可以替换的内容,将所有不可转换的内容保留为“?”
  • 使用//IGNORE不会留下“?”在文本中,但也不会音译,并且在找到不可转换的字符时也会引发 E_NOTICE,因此您必须将 iconv 与 @ 错误抑制器一起使用
  • 使用 //IGNORE//TRANSLIT(正如一些人在 PHP 论坛中建议的那样)实际上与 //IGNORE 相同(我自己在 php 版本 5.3.2 上尝试过)和 5.3.13)
  • 同样使用 //TRANSLIT//IGNORE//TRANSLIT 相同

它还使用当前的语言环境设置进行音译。

警告 - 后面有很多文本和代码!

这里有一些例子:

$text = 'Regular ascii text + čćžšđ + äöüß + éĕěėëȩ + æø€ + $ + ¶ + @';
echo '<br />original: ' . $text;
echo '<br />regular: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> regular: Regular ascii text + ????? + ???ss + ?????? + ae?EUR + $ + ? + @

setlocale(LC_ALL, 'en_GB');
echo '<br />en_GB: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> en_GB: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

setlocale(LC_ALL, 'en_GB.UTF8'); // will this work?
echo '<br />en_GB.UTF8: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> en_GB.UTF8: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

好的,这确实转换了 č ć š ä ö ü ß é ĕ ě ė ë 和 æ,但为什么不转换 đ 和 ø?

// now specific locales
setlocale(LC_ALL, 'hr_Hr'); // this should fix croatian đ, right?
echo '<br />hr_Hr: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
// wrong > hr_Hr: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

setlocale(LC_ALL, 'sv_SE'); // so this will fix swedish ø?
echo '<br />sv_SE: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
// will not > sv_SE: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

//this is interesting
setlocale(LC_ALL, 'de_DE');
echo '<br />de_DE: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> de_DE: Regular ascii text + cczs? + aeoeuess + eeeeee + ae?EUR + $ + ? + @
// actually this is what any german would expect since ä ö ü really is same as ae oe ue

让我们尝试使用 //IGNORE:

echo '<br />ignore: ' . iconv("UTF-8", "ASCII//IGNORE", $text);
//> ignore: Regular ascii text + + + + + $ + + @
//+ E_NOTICE: "Notice: iconv(): Detected an illegal character in input string in /var/www/test.server.web/index.php on line 49"

// with translit?
echo '<br />ignore/translit: ' . iconv("UTF-8", "ASCII//IGNORE//TRANSLIT", $text);
//same as ignore only> ignore/translit: Regular ascii text + + + + + $ + + @
//+ E_NOTICE: "Notice: iconv(): Detected an illegal character in input string in /var/www/test.server.web/index.php on line 54"

// translit/ignore?
echo '<br />translit/ignore: ' . iconv("UTF-8", "ASCII//TRANSLIT//IGNORE", $text);
//same as translit only> translit/ignore: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

使用 solution of this guy也无法正常工作:Regular ascii text + YYYYY + aous + eYYYeY + aoY + $ + � + @

即使使用 PECL intl Normalizer类(即使您的 PHP > 5.3.0,也并非总是可用,因为 PHP 可能无法使用 ICU 包国际使用,即在某些托管服务器上)产生错误的结果:

echo '<br />normalize: ' .preg_replace('/\p{Mn}/u', '', Normalizer::normalize($text, Normalizer::FORM_KD));
//>normalize: Regular ascii text + cczsđ + aouß + eeeeee + æø€ + $ + ¶ + @

那么有没有其他方法可以正确地做到这一点,或者唯一正确的做法是执行 preg_replace()str_replace() 并自己定义音译表?

//附录:我在 ZF wiki 上发现了 2008 年关于 proposal for Zend_Filter_Transliterate 的辩论但项目被放弃,因为在某些语言中无法转换(即中文),但对于任何基于拉丁语和西里尔语的语言 IMO 仍然应该存在此选项。

最佳答案

Patchwork\Utf8 的 toAscii() 函数正是这样做的,参见:

https://github.com/nicolas-grekas/Patchwork-UTF8/blob/master/src/Patchwork/Utf8.php

它利用 iconv 和 intl 的 Normalizer 来删除重音、拆分连字和执行许多其他通用音译。

关于php - 将任何可转换的 utf8 char 音译成 ascii 等价物,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13614622/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com