- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我收到了这个充满法语人名和数据的数据库,这意味着使用 é、è、ö、û 等字符。大约 3000 个条目。
显然,里面的数据有时使用 utf8_encode() 编码,有时不使用。这会导致输出困惑:字符在某些地方显示良好,而在其他地方则不然。
起初我试图追踪 UI 中出现这些问题的每个地方,并在必要时使用 utf8_decode(),但这确实不是一个可行的解决方案。
我做了一些测试,没有理由首先使用 utf8_encode,所以我宁愿删除所有这些,只在所有地方使用 UTF8 - 在浏览器、中间件和数据库级别。所以我需要清理数据库,将所有编码错误的数据转换为清理后的版本。
问题:是否可以在 php 中创建一个函数来检查 utf8 字符串是否已正确编码(不使用 utf8_encode)或不正确(使用 utf8_encode),如果是,则将其转换回其原始状态?
换句话说:我想知道如何检测 utf8_encode() 的 utf8 内容到不是 utf8_encode()d 的 utf8 内容。
**更新:例子**
这是一个很好的例子:您获取一个充满特殊字符的字符串,并获取该字符串的副本并对其进行 utf8_encode()。我梦寐以求的函数接受两个字符串,保留第一个字符串不变,第二个字符串现在与第一个字符串相同。
我试过这个:
$loc_fr = setlocale(LC_ALL, 'fr_BE.UTF8','fr_BE@euro', 'fr_BE', 'fr', 'fra', 'fr_FR');
$str1= "éèöûêïà ";
$str2 = utf8_encode($str1);
function convert_charset($str) {
$charset= mb_detect_encoding($str);
if( $charset=="UTF-8" ) {
return utf8_decode($str);
}
else {
return $str;
}
}
function correctString($str) {
echo "\nbefore: $str";
$str= convert_charset($str);
echo "\nafter: $str";
}
correctString($str1);
echo('<hr/>'."\n");
correctString($str2);
这给了我:
before: éèöûêïà after: �������
before: éèöûêïà after: éèöûêïà
谢谢,
亚历克斯
最佳答案
从问题中您目前正在查看的字符编码镜头(这取决于您的文本编辑器、浏览器标题、数据库配置等的默认值)以及数据具有哪些字符编码转换的问题并不完全清楚经历了。例如,通过调整数据库配置,一切都会得到纠正,这比对数据进行零星更改要好得多。
看起来可能是 utf8 双重编码的问题,如果是这种情况,原始数据和损坏的数据都将是 utf8,因此编码检测不会为您提供所需的信息。这种情况下的方法需要假设哪些字符可以合理地出现在您的数据中:就 PHP 和 Mysql 而言,“É”是完全合法的 utf8,因此您必须根据您对数据及其作者,它必须被破坏。如果您只是一名技术人员,做出这些假设是有风险的。幸运的是,如果您知道数据是法语的并且只有 3000 条记录,那么做出这些假设可能没问题。
下面是一个脚本,您可以首先修改它来检查您的数据,然后更正它,最后再次检查它。它所做的只是将字符串处理为 utf8,将其分解为字符,并将这些字符与预期法语字符的白名单进行比较。如果字符串不在 utf8 中或包含法语中通常不期望的字符,则表示存在问题,例如:
PROBABLY OK Côte d'Azur
HAS NON-WHITELISTED CHAR Côte d'Azur 195,180 ô
NON-UTF8 C�e d'Azur
这是脚本,您需要从 http://hsivonen.iki.fi/php-utf8/ 下载依赖的 unicode 函数
<?php
// Download from http://hsivonen.iki.fi/php-utf8/
require "php-utf8/utf8.inc";
$my_french_whitelist = array_merge(
range(0,127), // throw in all the lower ASCII chars
array(
0xE8, // small e-grave
0xE9, // small e-acute
0xF4, // small o-circumflex
//... Will need to add other accented chars,
// Euro sign, and whatever other chars
// are normally expected in the data.
)
);
// NB, whether this string literal is in utf8
// depends on the encoding of the text editor
// used to write the code
$str1 = "Côte d'Azur";
$test_data = array(
$str1,
utf8_encode($str1),
utf8_decode($str1),
);
foreach($test_data as $str){
$questionable_chars = non_whitelisted(
$my_french_whitelist,
$str
);
if($questionable_chars===true){
p("NON-UTF8", $str);
}else if ($questionable_chars){
p(
"HAS NON-WHITELISTED CHAR",
$str,
implode(",", $questionable_chars),
unicodeToUtf8($questionable_chars)
);
}else{
p("PROBABLY OK", $str);
}
}
function non_whitelisted($whitelist, $utf8_str){
$codepoints = utf8ToUnicode($utf8_str);
if($codepoints===false){ // has non-utf8 char
return true;
}
return array_diff(
array_unique($codepoints),
$whitelist
);
}
function p(){
$args = func_get_args();
echo implode("\t", $args), "\n";
}
关于php - 如何通过 php 检测和修复 mysql 数据库中的字符编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1503020/
我将一个 div 设置为 100% 宽度,当以 1024 分辨率查看页面时,宽度应从 100% 变为 1000px,我让它与@media 查询一起正常工作,并且在 FF、safari chrome 上
希望有人能帮助我,我已经被困了几天了。 将我的 Domino 服务器更新到 9.01 Fix 3 后,我在 javascript 控制台上不断收到错误消息: TypeError: this.edito
我们正在使用一个基于RMI的java应用程序。当我们运行应用程序时,即使应用程序处于理想阶段,内存使用量仍然不断增加。我们主要使用Vector和散列图数据结构。如何最大限度地减少java内存使用/修复
概述 Internet Download Manager (IDM)是最流行的 Windows 下载管理器。如果你平时工作中使用过IDM,您会惊叹 IDM 下载文件的速度有多快。IDM
当我打开 brave 浏览器时,会打开一个窗口(如下所示)。它并没有真正干扰浏览器的处理。但令人担忧的是为什么这种情况一直发生...... Error On Opening Brave Browser
这是我今天在求职面试中被问到的一个问题: 看下面的代码: int n=20; for (int i =0; i
我不小心删除了/opt/local/bin/perl5.8.9 ,这似乎是 macports 编译的 perl 的主要二进制文件。 现在我有很多取决于 perl5 的端口,但不想卸载并重新安装所有端口
>>>flip fix (0 :: Int) (\a b -> putStrLn "abc") Output: "abc" 这是使用翻转修复的简化版本。 我在一些 YouTube 视频中看到了这种使用
这个问题已经有答案了: How can I fix 'android.os.NetworkOnMainThreadException'? (64 个回答) 已关闭 3 年前。 我在 Android 应
def main(): cash = float(input("How much money: ")) coins = 0 def changeCounter(n): whil
前一周我遇到了类似的问题,查询需要永远运行。在编写此查询时,我尝试应用从其他查询中学到的一些知识,但执行起来需要很长时间。 运行查询的两个单独部分时,每个部分需要 2 分钟才能完成,这是可以接受的,但
下午,我的 CSS 有问题。第三个下拉菜单放错了,我没有解决办法。 这是我想要的: 之前: http://i53.tinypic.com/2qu85z8.png 之后: http://i51.tiny
更新方法: override func tableView(_ tableView: UITableView, commit editingStyle: UITableViewCellEditingS
我知道这是一个很多人都遇到过的问题,但我不熟悉 Less 并且是 Bootstrap 的新手,我正在寻找一种全 CSS 解决方案来防止我的导航栏折叠到 768 像素以下:
在我的布局中,我创建了以下 jsfiddle 托管的可调整大小的粘性页脚。但是,在调整大小时它与内容重叠。有没有办法让它在所有浏览器上都能响应? http://jsfiddle.net/9aLc0mg
我想要实现的目标 racer-offset 是为了让用户可以设置图像可以以 px 为单位移动多远。偏移量管理偏移量。 Speed-racer 告诉我们图像在滚动过程中移动的速度。我的问题是它不会停止。
我有一个简单的自动换行函数,它接受一个长字符串作为输入,然后将该字符串分成更小的字符串,并将它们添加到一个数组中,以便稍后输出。现在最后一两个字没有输出。这是主要问题。但是,我还想改进功能。我知道这有
我试图在使用每个 slider 之前禁用“下一步”按钮,我不确定为什么在单击不再是 class="not-clicked"的同一个 slider 时取消禁用该按钮. JSFiddle: (这里看起来有
这个问题已经有答案了: What is a NullPointerException, and how do I fix it? (12 个回答) 已关闭 8 年前。 如何让程序输出所有信息? IT
On this page ,在“生活”下有一个带有自动生成的子菜单的菜单。子菜单存在一些问题(它会闪烁并改变大小——如果你滚动它就会看到)。我需要以某种方式覆盖它当前正在读取的 css 并使其统一。
我是一名优秀的程序员,十分优秀!