PHP JSON_encode() 得到 "Malformed UTF-8 characters, possibly incorrectly encoded"(错误)-6ren

PHP JSON_encode() 得到 "Malformed UTF-8 characters, possibly incorrectly encoded"(错误)

转载作者：行者123 更新时间：2023-12-03 21:23:31

25

4

我无法解决这个问题，我快疯了。
JSON_encode()正在类型转换错误:Malformed UTF-8 characters, possibly incorrectly encoded在一组 10k 记录中的少数记录(2 或 3)上。
然而，这似乎很难解决。

mysql 到处都是 utf8mb4(数据库、表、列和排序规则)

php 是 7.2，当然是 utf8

apache 默认字符集是 utf8(但是错误是在 PHP 级别抛出的)。

我还可以在简单的 HTML 调试页面中打印以正确筛选 PHP 中的记录，而不会出现问题。但是，如果我尝试在 JSON 中对其进行编码，则会出现错误。

我发现这些记录是从 CVS 导入的，可能绕过了清洁器。奇怪的是，整个 CSV 文件被解析为:

$this->encoding = mb_detect_encoding($source,mb_detect_order(),true);
if ($this->encoding!="" && $this->encoding!="UTF8") {
    $source = iconv($this->encoding, "UTF-8", $source);
}

由于隐私(和 GDPR)，我无法发布任何完整的损坏数据。
但是我成功提取了一个似乎是损坏的部分:

RESIDENCE �PRINCIPE

更新

我尝试获取这些损坏字符的位码。这是我发现的。
在 ASCII 中使用简单的 native 函数 str_split和 ord这些字符是:

'�' 160

我也想在 utf8 中找到位码，所以我在 PHP.net http://php.net/manual/en/function.ord.php#109812 上找到了这个有用的函数
试图找到 MultiByteStrings 的位码。它给了我:

-2096

哪个是……阴性？

最佳答案

解决了!

问题出在函数 mb_detect_order() 中，这个功能不能像我预期的那样工作。我认为这是一个完整支持编码顺序的列表，主要用于加快检测过程。

但我刚刚发现这个函数只返回 2 个编码:

//print_r(mb_detect_order());
Array
(
    [0] => ASCII
    [1] => UTF-8
)

在我的情况下，这几乎完全没用。
MB 函数可以检测更多字符集。
您可以通过运行 mb_list_encodings() 来查看它们。并获取完整列表:

//print_r(mb_list_encodings());
Array
(
    [0] => pass
    [1] => auto
    [2] => wchar
    [3] => byte2be
    [4] => byte2le
    [5] => byte4be
    [6] => byte4le
    [7] => BASE64
    [8] => UUENCODE
    [9] => HTML-ENTITIES
    [10] => Quoted-Printable
    [11] => 7bit
    [12] => 8bit
    [13] => UCS-4
    [14] => UCS-4BE
    [15] => UCS-4LE
    [16] => UCS-2
    [17] => UCS-2BE
    [18] => UCS-2LE
    [19] => UTF-32
    [20] => UTF-32BE
    [21] => UTF-32LE
    [22] => UTF-16
    [23] => UTF-16BE
    [24] => UTF-16LE
    [25] => UTF-8
    [26] => UTF-7
    [27] => UTF7-IMAP
    [28] => ASCII
    [29] => EUC-JP
    [30] => SJIS
    [31] => eucJP-win
    [32] => EUC-JP-2004
    [33] => SJIS-win
    [34] => SJIS-Mobile#DOCOMO
    [35] => SJIS-Mobile#KDDI
    [36] => SJIS-Mobile#SOFTBANK
    [37] => SJIS-mac
    [38] => SJIS-2004
    [39] => UTF-8-Mobile#DOCOMO
    [40] => UTF-8-Mobile#KDDI-A
    [41] => UTF-8-Mobile#KDDI-B
    [42] => UTF-8-Mobile#SOFTBANK
    [43] => CP932
    [44] => CP51932
    [45] => JIS
    [46] => ISO-2022-JP
    [47] => ISO-2022-JP-MS
    [48] => GB18030
    [49] => Windows-1252
    [50] => Windows-1254
    [51] => ISO-8859-1
    [52] => ISO-8859-2
    [53] => ISO-8859-3
    [54] => ISO-8859-4
    [55] => ISO-8859-5
    [56] => ISO-8859-6
    [57] => ISO-8859-7
    [58] => ISO-8859-8
    [59] => ISO-8859-9
    [60] => ISO-8859-10
    [61] => ISO-8859-13
    [62] => ISO-8859-14
    [63] => ISO-8859-15
    [64] => ISO-8859-16
    [65] => EUC-CN
    [66] => CP936
    [67] => HZ
    [68] => EUC-TW
    [69] => BIG-5
    [70] => CP950
    [71] => EUC-KR
    [72] => UHC
    [73] => ISO-2022-KR
    [74] => Windows-1251
    [75] => CP866
    [76] => KOI8-R
    [77] => KOI8-U
    [78] => ArmSCII-8
    [79] => CP850
    [80] => JIS-ms
    [81] => ISO-2022-JP-2004
    [82] => ISO-2022-JP-MOBILE#KDDI
    [83] => CP50220
    [84] => CP50220raw
    [85] => CP50221
    [86] => CP50222
)

我错了，以为 mb_detect_order只是这个列表的一个有序版本。 mb_detect_order只是……没用。为了以正确的方式在 UTF8 中编码，请使用以下代码:

$my_encoding_list = [
    "UTF-8",
    "UTF-7",
    "UTF-16",
    "UTF-32",
    "ISO-8859-16",
    "ISO-8859-15",
    "ISO-8859-10",
    "ISO-8859-1",
    "Windows-1254",
    "Windows-1252",
    "Windows-1251",
    "ASCII",
    //add yours preferred
];

//remove unsupported encodings
$encoding_list = array_intersect($my_encoding_list, mb_list_encodings());

//detect 'finally' the encoding
$this->encoding = mb_detect_encoding($source,$encoding_list,true);

这工作并解决了我在数据库中保存的错误数据的问题。

关于PHP JSON_encode() 得到 "Malformed UTF-8 characters, possibly incorrectly encoded"(错误)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50610990/

25

4

0

文章推荐： JMESPath - 加入嵌套数组中的项目

文章推荐： gnuplot - 如何用透明点制作散点图

文章推荐： jekyll - 在最后一个 Jekyll 帖子循环中添加一个元素

文章推荐： google-bigquery - 如何在 BigQuery 中取消嵌套多个数组？

jQuery UI 可排序 : is it possible to restrict possible positions of individual elements?
我有一个包含需要排序的不同项目的列表。但还有一个额外的问题:某些元素只允许出现在列表中的特定位置。示例(请查看 http://jsfiddle.net/pYL32/2/ ):有一个包含元素 foo、
java - 为什么 guava/java 使用 possible.isPresent() 而不是Optional.isPresent(possible)？
关于https://code.google.com/p/guava-libraries/wiki/UsingAndAvoidingNullExplained据解释，guava(以及后来的 java 8
java - 是否有一个 java8 标准库类表示 "possibly with exception"与 java.util.Optional 表示 "possibly null"的方式相同？
我有一个名为 say CalculationOutcome 的类(class)和 FileHashOutcome .他们的构造函数有 (ActualResult, Throwable)参数，并在 Co
Pycharm跨2个显示器全屏: is this possible?
我正在使用pycharm，我的代码在分屏上。当我运行调试时，会弹出调试/运行窗口，它非常分散注意力并且限制了我在调试时可以查看的代码量......但我想保持它，因为我来回走动；另外，我想要调试变量的完
具有可变属性的Javascript对象: Is it possible?
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: javascript object, access variable property name? 我确信这是可以完
javascript继承与使用super : is this possible?
if (typeof Object.create !== 'function') { Object.create = function (o) { function F() {
Redis与Optimistic并发控制: is it possible?
在将实体存储在 redis 中作为序列化二进制 blob 的应用程序中工作。我有多个客户端处理同一个数据集，我希望使用乐观并发。我的要求是: 在一次往返中读取特定键的序列化实体将修改后的实体写回r
string - 浮点到字符串的无损转换并返回 : is it possible?
这个问题是指 C/x86 上使用的 IEEE 标准浮点数。是否可以将任何数字(即不包括 NaN 之类的特殊值)浮点数或 double 数表示为十进制字符串，以便将该字符串转换回浮点数/ double
lua 重载 : possibilities?
我的团队目前正在与 Lua 合作，创建一个 android 游戏。我们遇到的一件事是表面上无法创建重载构造函数。我习惯于使用默认值设置一个对象，然后在需要时使其过载。前任: apples() {
camera - 带场景套件相机的鱼眼广角 : Possible?
如何在 Scene Kit 中使用 SCNCamera 获得像鱼眼镜头那样的失真？类似于这种图像的“鞠躬”: //正如 Rickster 指出的那样，这种失真被称为“桶形失真”。从文档中，这是让我
javascript - 将字符串转换为计算步骤列表: Is it possible?
我想问是否有一种方法可以多次评估 javascript 术语，而不需要一遍又一遍地解析一个术语。说，您想要评估 var1/var2+Math.sqrt(var3) 每秒 20 次。使用时这可能会出
Java代理小程序: is such thing possible?
我想知道在技术上是否可以在 java applet 中创建代理。那么是否可以通过这个 java applet 代理路由所有进一步的浏览器请求？例如，如果用户要浏览 google.com，默认行为是
ocaml - 具有多种返回类型的函数 : is it possible?
我有以下代码，我想返回一个 bool 值或一个元组。 (函数 isvariable 和 dont_care 都返回 bool 值，仅供引用) let match_element (a, b) = if
python - 高效递归迭代器: Possible?
这个问题困扰我很久了。我想要一个二叉树(或类似的嵌套结构)上的迭代器，它高效、简单且Pythonic。例如，对于这样的用法: for value in values(root): do_som
sql - 在一个查询中聚合分组结果集中的所有单个列 : is it possible?
目前我有以下 MySQL 查询: SELECT COUNT(*) AS `count`, `v`.`value` FROM `client_entity_int` AS `v` INN
javascript - 开发时跨域AJAX调用 : possible?
我正在使用 Angular 开发应用程序，客户端是 100% JS。我即将替换使用 ExtJS 制作的旧应用程序，但我不会更改服务器端。只有客户端从头开始重新编码。我想在任何地方和任何机器上处理这个
java - 获取实例的声明类 : possible?
有没有办法在运行时检索实例的声明类？例如: public class Caller { private JFrame frame = new JFrame("Test"); priva
php - PDO非锁定查询: possible?
我目前正在请求 MySQL 数据库使用 PDO 计算一些计数和总和。这个过程可能需要一段时间，如果用户突然想浏览另一个页面，他可能会停留在浏览器前面。我试图弄清楚是否可以使用 PDO 启动 MySQ
php - 连接查询结果 : Possible?
想知道它是不是这样工作的: $result .= mysqli_query($query1); $result .= mysqli_query($query2); $result 会是查询 1 和 2
javascript - 滚动负责的背景图像覆盖尺寸 : is it possible?
所以我有这样的挑战: body 背景上的图像，背景大小，覆盖以适合整个屏幕。在背景图像上是一些元素(建筑物)。所以我想将鼠标悬停在建筑物上，他们会更改颜色或添加阴影等。问题在于屏幕调整大小，当我调整屏

首页

博学

6Ren·AI

商城

PHP JSON_encode() 得到 "Malformed UTF-8 characters, possibly incorrectly encoded"(错误)