php - mb_detect_encoding() 没有按预期工作？-6ren

php - mb_detect_encoding() 没有按预期工作？

转载作者：搜寻专家更新时间：2023-10-31 22:03:16

24

4

如果我不剪那么短的头发，我早就因为这个问题把它拔光了哈哈!非常感谢任何帮助，真的，我因此而发疯!!

所以我有一串数据来自(不是我的选择)mysql 数据库中的 latin1 表，看起来像这样:

 Hi! I'm a string of text 😜.

最后的那个符号是一个表情符号 unicode 字符，U+1F61C(这是一个古怪的笑脸)。我无法弄清楚如何在这个问题中正确显示它，但无论如何，当我将字符串输出到 html 文档(为 utf-8 编码)中的浏览器时，我能够很好地看到它。

<html>
  <head>
    <meta charset='utf-8'>
  </head>
    <body>
      <?php echo $text; ?> // outputs the string with the emoji showing correctly
    </body>
</html>

我的基本问题是我试图从 $text 字符串中删除这个表情符号。或者更确切地说，我正在尝试从我从数据库中获取的字符串中删除任何非标点符号和非字母数字字符(我的程序只需要获取正常的对话文本，什么都不需要否则褶边)。

好吧，我想我应该先尝试只删除表情符号字符，所以我环顾了 stackoverflow 并找到了 this example .不幸的是，它不起作用 --- 表情符号根本没有被删除，字符串只是保持不变。

// Outputs the original string
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

然后我想，为什么不像我一开始想的那样尝试删除所有非标点符号和非字母字符呢？所以我环顾了stackoverflow并找到了this example .但奇怪的是，它也不起作用 --- 字符串与以前相同。

// Also outputs the original string
echo preg_replace( '/[^a-zA-Z0-9\s\p{P}]/', '', $text );

所以我在想，这很奇怪，它至少应该删除标点符号，对吧？也许这根弦有问题？因此，我尝试在其上运行 mb_detect_encoding() 以查看 PHP 正在检测什么，输出显示“ASCII”。

// Outputs "ASCII"
echo mb_detect_encoding( $text, mb_detect_order(''), true );

我想我想知道，返回它似乎是一个奇怪的结果吗？如果我理解正确，ASCII 不只是一小部分不包含表情符号 unicode 符号的字符吗？但也许，更广泛的问题可能是为什么标点符号删除代码不起作用，我想也许我错误地使用了 preg_replace。所以我在一组不同的字符上再次尝试了 preg_replace 以查看:

// Outputs "Hi! I'm a text 😜."
echo preg_replace( '/string of/', '', $text );

...而且效果很好。我很困惑!

所以我在想，我猜数据库中的数据有些问题，也许我应该尝试将字符串编码强制为 utf-8？所以我尝试了下面的代码，它也不起作用，我猜是因为 PHP 已经将字符串检测为 ASCII，所以它不会转换为 utf-8？我不知道。

//  Outputs "ASCII" still, and also the original string
$text = iconv( mb_detect_encoding( $text, mb_detect_order(''), true ), "UTF-8", $text );
echo mb_detect_encoding( $first_post_text, mb_detect_order(''), true );
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

我什至在字符串上尝试了一个简单的 utf8_encode() (因为我认为数据来自 latin1 数据库，所以它可能是用 ISO-8859-1 编码的......也许吧？)但也没有运气 - -- 还是一样的字符串，还是说是 ASCII，这好像不太对。

最后，我认为 preg_replace 函数本身可能有问题，但这是它的奇怪部分 --- 您还记得上面那个简单的 html 文档吗？好吧，我决定创建一个简单的表单，通过 POST 变量将整个文档(使用 javascript)发送到另一个 PHP 页面(html 标签、文本和所有)。当我在下一页上对 POST 数据运行 mb_detect_encoding() 时，它实际上输出 UTF-8 --- 不仅如此，当我从上面运行 preg_replace 代码时，它正在工作!

有没有人对可能出现的问题有任何想法？对此的任何帮助将不胜感激!诚然，我不是字符编码方面的好 friend ，而且我会疯狂地试图解决这一切!

最佳答案

一种可能的解释:

如果数据库本身不包含 unicode 字符，而只包含 html 实体(😜 或 😜)，则字符串替换将失败。它还将解释 unicode 字符如何出现在 latin1 字符集中，以及检测到的 ascii 编码。类似

echo str_replace( array('&#128540;','&#x1f61c;'), '', $text );

在那种情况下会起作用。

关于php - mb_detect_encoding() 没有按预期工作？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23726980/

24

4

0

文章推荐： php - Symfony2 自定义表单类型 key 对

文章推荐： javascript - 如何克隆具有给定类名的元素

文章推荐： javascript - 找到图像标签javascript的相对路径

文章推荐： php - 在同一台服务器上调用 cURL 会导致问题

powershell - Powershell ForEach循环间歇性工作-工作，失败，工作，失败，工作等
我在Windows 10中使用一些简单的Powershell代码遇到了这个奇怪的问题，我认为这可能是我做错了，但我不是Powershell的天才。我有这个: $ix = [System.Net.Dn
javascript - solr 正在为我的本地 iis 工作，而不是为托管 iis 工作
var urlsearch = "http://192.168.10.113:8080/collective-intellegence/StoreClicks?userid=" + userId +
c# - 串行通信不通过 QSerialPort (Qt) 工作，但通过终端 (Termite) 工作
我有一个非常奇怪的问题，过去两天一直让我抓狂。我有一个我试图控制的串行设备(LS 100 光度计)。使用设置了正确参数的终端(白蚁)，我可以发送命令(“MES”)，然后是定界符(CR LF)，然后我
.net - RegFree COM 从 C# 工作，而不是从 VBA 工作
我目前正试图让无需注册的 COM 使用 Excel 作为客户端，使用 .NET dll 作为服务器。目前，我只是试图让概念验证工作，但遇到了麻烦。显然，当我使用 Excel 时，我不能简单地使用与可
java - JAX-RS REST 在 WildFly 工作，但不在 Tomcat 工作
我开发了简单的 REST API - https://github.com/pavelpetrcz/MandaysFigu - 我的问题是在本地主机上，WildFly 16 服务器的应用程序运行正常。
python - 使用 Mongoengine 进行插入只能从 shell 工作，但不能从 Django View 工作
我遇到了奇怪的情况 - 从 Django shell 创建一些 Mongoengine 对象是成功的，但是从 Django View 创建相同的对象看起来成功，但 MongoDB 中没有出现任何数据。
Flask 应用程序上下文 : app. app_context().push() 工作，但无法让 "with app.app_context()" block 工作
我是 flask 的新手，只编写了一个相当简单的网络应用程序——没有数据库，只是一个航类搜索 API 的前端。一切正常，但为了提高我的技能，我正在尝试使用应用程序工厂和蓝图重构我的代码。让它与 pus
javascript - Google Analytics 事件跟踪 JS 在开发控制台中运行/工作，但不能从 ex 文件中运行/工作
我的谷歌分析 JavaScript 事件在开发者控制台中运行得很好。但是当从外部 js 文件包含在页面上时，它们根本不起作用。由于某种原因。例如；下面的内容将在包含在控制台中时运行。但当包含在单
node.js - ZeroMQ PUSH/PULL 通信不能通过 IPC 工作，但它可以通过 TCP 工作
这是一本名为“Node.js 8 the Right Way”的书中的任务。你可以在下面看到它: 这是我的解决方案: 'use strict'; const zmq = require('zeromq
java - 为什么 distinct 通过 flatMap 工作，而不是通过 map 的 "sub-stream"工作？
我正在阅读文本行，并创建其独特单词的列表(在将它们小写之后)。我可以使它与 flatMap 一起工作，但不能使它与 map 的“子”流一起工作。 flatMap 看起来更简洁和“更好”，但为什么 di
powershell - 怎么回声$？工作？
我正在编写一些 PowerShell 脚本来进行一些构建自动化。我发现 here echo $? 根据前面的语句返回真或假。我刚刚发现 echo 是 Write-Output 的别名。写主机 $?
Instagram 个人资料照片没有保存/工作？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
iphone - 无法让presentViewController 工作
我将一个工作 View Controller 类从另一个项目复制到一个新项目中。我无法在新项目中加载 View 。在旧项目中我使用了presentModalViewController。在新版本中，我
JavaScript 函数未加载/工作
我对 javascript 很陌生，所以很难看出我哪里出错了。由于某种原因，我的功能无法正常工作。任何帮助，将不胜感激。我尝试在外部 js 文件、头部/主体中使用它们，但似乎没有任何效果。错误要么出在
Flutter复选框未更改/更新/工作
我正在尝试学习Flutter中的复选框。问题是，当我想在Scaffold(body :)中使用复选框时，它正在工作。但我想在不同的地方使用它，例如ListView中的项目。 return Cente
Spring 侦探行李传播未传播/工作
我们当前使用的是 sleuth 2.2.3.RELEASE，我们看不到在 http header 中传递的 userId 字段没有传播。下面是我们的代码。 BaggageField REQUEST_I
java - JComboBox 工作
我有一个组合框，其中包含一个项目，比如“a”。我想调用该组合框的 Action 监听器，仅在手动选择项目“a”完成时才调用。我也尝试过 ItemStateChanged，但它的工作原理与 Action
java - 我怎样才能让interrupt()工作？
你能看一下照片吗？现在，一步前我执行了 this.interrupt()。您可以看到 this.isInterrupted() 为 false。我仔细观察——“这个”没有改变。它具有相同的 ID (1
Spring 侦探行李传播未传播/工作
我们当前使用的是 sleuth 2.2.3.RELEASE，我们看不到在 http header 中传递的 userId 字段没有传播。下面是我们的代码。 BaggageField REQUEST_I
laravel 工作/通知失败
我正在尝试在我的网站上设置一个联系表单，当有人点击发送时，就会运行一个作业，并在该作业中向所有管理员用户发送通知。不过，我在失败的工作表中不断收到此错误: Illuminate\Database\El

首页

博学

6Ren·AI

商城

php - mb_detect_encoding() 没有按预期工作？