php - 如何通过 php 检测和修复 mysql 数据库中的字符编码？-6ren

php - 如何通过 php 检测和修复 mysql 数据库中的字符编码？

转载作者：可可西里更新时间：2023-11-01 06:42:25

25

4

我收到了这个充满法语人名和数据的数据库，这意味着使用 é、è、ö、û 等字符。大约 3000 个条目。

显然，里面的数据有时使用 utf8_encode() 编码，有时不使用。这会导致输出困惑:字符在某些地方显示良好，而在其他地方则不然。

起初我试图追踪 UI 中出现这些问题的每个地方，并在必要时使用 utf8_decode()，但这确实不是一个可行的解决方案。

我做了一些测试，没有理由首先使用 utf8_encode，所以我宁愿删除所有这些，只在所有地方使用 UTF8 - 在浏览器、中间件和数据库级别。所以我需要清理数据库，将所有编码错误的数据转换为清理后的版本。

问题:是否可以在 php 中创建一个函数来检查 utf8 字符串是否已正确编码(不使用 utf8_encode)或不正确(使用 utf8_encode)，如果是，则将其转换回其原始状态？

换句话说:我想知道如何检测 utf8_encode() 的 utf8 内容到不是 utf8_encode()d 的 utf8 内容。

**更新:例子**

这是一个很好的例子:您获取一个充满特殊字符的字符串，并获取该字符串的副本并对其进行 utf8_encode()。我梦寐以求的函数接受两个字符串，保留第一个字符串不变，第二个字符串现在与第一个字符串相同。

我试过这个:

$loc_fr = setlocale(LC_ALL, 'fr_BE.UTF8','fr_BE@euro', 'fr_BE', 'fr', 'fra', 'fr_FR');
$str1= "éèöûêïà ";
$str2 = utf8_encode($str1);

function convert_charset($str) {
    $charset=  mb_detect_encoding($str);
    if( $charset=="UTF-8" ) {
        return utf8_decode($str);
    }
    else {
        return $str;
    }
}
function correctString($str) {
    echo "\nbefore: $str";
    $str= convert_charset($str);
    echo "\nafter: $str"; 
}

correctString($str1);
echo('<hr/>'."\n");
correctString($str2);

这给了我:

before: éèöûêïà after: ������� 
before: Ã©Ã¨Ã¶Ã»ÃªÃ¯Ã  after: éèöûêïà

谢谢，

亚历克斯

最佳答案

从问题中您目前正在查看的字符编码镜头(这取决于您的文本编辑器、浏览器标题、数据库配置等的默认值)以及数据具有哪些字符编码转换的问题并不完全清楚经历了。例如，通过调整数据库配置，一切都会得到纠正，这比对数据进行零星更改要好得多。

看起来可能是 utf8 双重编码的问题，如果是这种情况，原始数据和损坏的数据都将是 utf8，因此编码检测不会为您提供所需的信息。这种情况下的方法需要假设哪些字符可以合理地出现在您的数据中:就 PHP 和 Mysql 而言，“É”是完全合法的 utf8，因此您必须根据您对数据及其作者，它必须被破坏。如果您只是一名技术人员，做出这些假设是有风险的。幸运的是，如果您知道数据是法语的并且只有 3000 条记录，那么做出这些假设可能没问题。

下面是一个脚本，您可以首先修改它来检查您的数据，然后更正它，最后再次检查它。它所做的只是将字符串处理为 utf8，将其分解为字符，并将这些字符与预期法语字符的白名单进行比较。如果字符串不在 utf8 中或包含法语中通常不期望的字符，则表示存在问题，例如:

PROBABLY OK     Côte d'Azur
HAS NON-WHITELISTED CHAR        CÃ´te d'Azur    195,180 Ã´
NON-UTF8        C�e d'Azur

这是脚本，您需要从 http://hsivonen.iki.fi/php-utf8/ 下载依赖的 unicode 函数

<?php

// Download from http://hsivonen.iki.fi/php-utf8/
require "php-utf8/utf8.inc";

$my_french_whitelist = array_merge(
  range(0,127), // throw in all the lower ASCII chars
  array(
    0xE8, // small e-grave
    0xE9, // small e-acute
    0xF4, // small o-circumflex
    //... Will need to add other accented chars,
    // Euro sign, and whatever other chars
    // are normally expected in the data.
  )
);

// NB, whether this string literal is in utf8
// depends on the encoding of the text editor
// used to write the code
$str1 = "Côte d'Azur";
$test_data = array(
  $str1,
  utf8_encode($str1),
  utf8_decode($str1),
);

foreach($test_data as $str){
  $questionable_chars = non_whitelisted(
    $my_french_whitelist,
    $str
  );
  if($questionable_chars===true){
    p("NON-UTF8", $str);
  }else if ($questionable_chars){
    p(
      "HAS NON-WHITELISTED CHAR",
      $str,
      implode(",", $questionable_chars),
      unicodeToUtf8($questionable_chars)
    );
  }else{
    p("PROBABLY OK", $str);
  }
}

function non_whitelisted($whitelist, $utf8_str){
  $codepoints = utf8ToUnicode($utf8_str);
  if($codepoints===false){ // has non-utf8 char
    return true;
  }
  return array_diff(
    array_unique($codepoints),
    $whitelist
  );
}


function p(){
  $args = func_get_args();
  echo implode("\t", $args), "\n";
}

关于php - 如何通过 php 检测和修复 mysql 数据库中的字符编码？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1503020/

25

4

0

文章推荐： mysql - 要不要在 MySQL 中使用外键？

文章推荐： php - 在使用准备好的语句执行插入查询后获取自动增量 ID

文章推荐： mysql - 是否可以使用 MySQL 进行 N-master => 1-slave 复制？

文章推荐： php - MySQL 按数学排序

javascript - 修复 IE 的 div 宽度 @media 修复
我将一个 div 设置为 100% 宽度，当以 1024 分辨率查看页面时，宽度应从 100% 变为 1000px，我让它与@media 查询一起正常工作，并且在 FF、safari chrome 上
ckeditor - Domino 9.01 修复 3 CKEditor 错误 - 9.01 修复 1 上没有错误
希望有人能帮助我，我已经被困了几天了。将我的 Domino 服务器更新到 9.01 Fix 3 后，我在 javascript 控制台上不断收到错误消息: TypeError: this.edito
Java内存使用/修复
我们正在使用一个基于RMI的java应用程序。当我们运行应用程序时，即使应用程序处于理想阶段，内存使用量仍然不断增加。我们主要使用Vector和散列图数据结构。如何最大限度地减少java内存使用/修复
修复 IDM下载器假序列号错误优秀技巧分享
概述 Internet Download Manager (IDM)是最流行的 Windows 下载管理器。如果你平时工作中使用过IDM,您会惊叹 IDM 下载文件的速度有多快。IDM
authorization - 打开勇敢的浏览器时弹出错误？修复？
当我打开 brave 浏览器时，会打开一个窗口(如下所示)。它并没有真正干扰浏览器的处理。但令人担忧的是为什么这种情况一直发生...... Error On Opening Brave Browser
for-loop - 修复 For 循环中的错误
这是我今天在求职面试中被问到的一个问题: 看下面的代码: int n=20; for (int i =0; i
macports 修复/替换命令？
我不小心删除了/opt/local/bin/perl5.8.9 ，这似乎是 macports 编译的 perl 的主要二进制文件。现在我有很多取决于 perl5 的端口，但不想卸载并重新安装所有端口
haskell - 翻转修复/修复
>>>flip fix (0 :: Int) (\a b -> putStrLn "abc") Output: "abc" 这是使用翻转修复的简化版本。我在一些 YouTube 视频中看到了这种使用
java - 修复 NetworkOnMainThreadException
这个问题已经有答案了: How can I fix 'android.os.NetworkOnMainThreadException'? (64 个回答) 已关闭 3 年前。我在 Android 应
python - 修复 UnboundLocalError
def main(): cash = float(input("How much money: ")) coins = 0 def changeCounter(n): whil
mysql - 查询优化/修复
前一周我遇到了类似的问题，查询需要永远运行。在编写此查询时，我尝试应用从其他查询中学到的一些知识，但执行起来需要很长时间。运行查询的两个单独部分时，每个部分需要 2 分钟才能完成，这是可以接受的，但
CSS 'Dropdown' 修复
下午，我的 CSS 有问题。第三个下拉菜单放错了，我没有解决办法。这是我想要的: 之前: http://i53.tinypic.com/2qu85z8.png 之后: http://i51.tiny
ios - NSInternalInconsistencyException 修复
更新方法: override func tableView(_ tableView: UITableView, commit editingStyle: UITableViewCellEditingS
导航栏折叠的 CSS 修复
我知道这是一个很多人都遇到过的问题，但我不熟悉 Less 并且是 Bootstrap 的新手，我正在寻找一种全 CSS 解决方案来防止我的导航栏折叠到 768 像素以下:
javascript - 可调整大小的粘性页脚与内容重叠 - 修复
在我的布局中，我创建了以下 jsfiddle 托管的可调整大小的粘性页脚。但是，在调整大小时它与内容重叠。有没有办法让它在所有浏览器上都能响应？ http://jsfiddle.net/9aLc0mg
javascript - 修复 if 语句以停止移动
我想要实现的目标 racer-offset 是为了让用户可以设置图像可以以 px 为单位移动多远。偏移量管理偏移量。 Speed-racer 告诉我们图像在滚动过程中移动的速度。我的问题是它不会停止。
c++ - 修复/改进自动换行功能
我有一个简单的自动换行函数，它接受一个长字符串作为输入，然后将该字符串分成更小的字符串，并将它们添加到一个数组中，以便稍后输出。现在最后一两个字没有输出。这是主要问题。但是，我还想改进功能。我知道这有
禁用按钮的 JQuery 修复
我试图在使用每个 slider 之前禁用“下一步”按钮，我不确定为什么在单击不再是 class="not-clicked"的同一个 slider 时取消禁用该按钮. JSFiddle: (这里看起来有
java - 修复 NullPointerException？
这个问题已经有答案了: What is a NullPointerException, and how do I fix it? (12 个回答) 已关闭 8 年前。如何让程序输出所有信息？ IT
菜单鼠标悬停的 CSS 修复
On this page ，在“生活”下有一个带有自动生成的子菜单的菜单。子菜单存在一些问题(它会闪烁并改变大小——如果你滚动它就会看到)。我需要以某种方式覆盖它当前正在读取的 css 并使其统一。

首页

博学

6Ren·AI

商城

php - 如何通过 php 检测和修复 mysql 数据库中的字符编码？