gpt4 book ai didi

php - mb_detect_encoding() 没有按预期工作?

转载 作者:搜寻专家 更新时间:2023-10-31 22:03:16 24 4
gpt4 key购买 nike

如果我不剪那么短的头发,我早就因为这个问题把它拔光了哈哈!非常感谢任何帮助,真的,我因此而发疯!!

所以我有一串数据来自(不是我的选择)mysql 数据库中的 latin1 表,看起来像这样:

 Hi! I'm a string of text 😜.

最后的那个符号是一个表情符号 unicode 字符,U+1F61C(这是一个古怪的笑脸)。我无法弄清楚如何在这个问题中正确显示它,但无论如何,当我将字符串输出到 html 文档(为 utf-8 编码)中的浏览器时,我能够很好地看到它。

<html>
<head>
<meta charset='utf-8'>
</head>
<body>
<?php echo $text; ?> // outputs the string with the emoji showing correctly
</body>
</html>

我的基本问题是我试图从 $text 字符串中删除这个表情符号。或者更确切地说,我正在尝试从我从数据库中获取的字符串中删除任何 非标点符号和非字母数字字符(我的程序只需要获取正常的对话文本,什么都不需要否则褶边)。

好吧,我想我应该先尝试只删除表情符号字符,所以我环顾了 stackoverflow 并找到了 this example .不幸的是,它不起作用 --- 表情符号根本没有被删除,字符串只是保持不变。

// Outputs the original string
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

然后我想,为什么不像我一开始想的那样尝试删除所有非标点符号和非字母字符呢?所以我环顾了stackoverflow并找到了this example .但奇怪的是,它也不起作用 --- 字符串与以前相同。

// Also outputs the original string
echo preg_replace( '/[^a-zA-Z0-9\s\p{P}]/', '', $text );

所以我在想,这很奇怪,它至少应该删除标点符号,对吧?也许这根弦有问题?因此,我尝试在其上运行 mb_detect_encoding() 以查看 PHP 正在检测什么,输出显示“ASCII”。

// Outputs "ASCII"
echo mb_detect_encoding( $text, mb_detect_order(''), true );

我想我想知道,返回它似乎是一个奇怪的结果吗?如果我理解正确,ASCII 不只是一小部分不包含表情符号 unicode 符号的字符吗?但也许,更广泛的问题可能是为什么标点符号删除代码不起作用,我想也许我错误地使用了 preg_replace。所以我在一组不同的字符上再次尝试了 preg_replace 以查看:

// Outputs "Hi! I'm a text 😜."
echo preg_replace( '/string of/', '', $text );

...而且效果很好。我很困惑!

所以我在想,我猜数据库中的数据有些问题,也许我应该尝试将字符串编码强制为 utf-8?所以我尝试了下面的代码,它也不起作用,我猜是因为 PHP 已经将字符串检测为 ASCII,所以它不会转换为 utf-8?我不知道。

//  Outputs "ASCII" still, and also the original string
$text = iconv( mb_detect_encoding( $text, mb_detect_order(''), true ), "UTF-8", $text );
echo mb_detect_encoding( $first_post_text, mb_detect_order(''), true );
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

我什至在字符串上尝试了一个简单的 utf8_encode() (因为我认为数据来自 latin1 数据库,所以它可能是用 ISO-8859-1 编码的......也许吧?)但也没有运气 - -- 还是一样的字符串,还是说是 ASCII,这好像不太对。

最后,我认为 preg_replace 函数本身可能有问题,但这是它的奇怪部分 --- 您还记得上面那个简单的 html 文档吗?好吧,我决定创建一个简单的表单,通过 POST 变量将整个文档(使用 javascript)发送到另一个 PHP 页面(html 标签、文本和所有)。当我在下一页上对 POST 数据运行 mb_detect_encoding() 时,它实际上输出 UTF-8 --- 不仅如此,当我从上面运行 preg_replace 代码时,它正在工作!

有没有人对可能出现的问题有任何想法?对此的任何帮助将不胜感激!诚然,我不是字符编码方面的好 friend ,而且我会疯狂地试图解决这一切!

最佳答案

一种可能的解释:

如果数据库本身不包含 unicode 字符,而只包含 html 实体(😜😜),则字符串替换将失败。它还将解释 unicode 字符如何出现在 latin1 字符集中,以及检测到的 ascii 编码。类似

echo str_replace( array('&#128540;','&#x1f61c;'), '', $text );

在那种情况下会起作用。

关于php - mb_detect_encoding() 没有按预期工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23726980/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com