gpt4 book ai didi

php - htmlspecialchars 导致文本消失

转载 作者:行者123 更新时间:2023-12-02 07:06:03 29 4
gpt4 key购买 nike

我遇到了一个特定的字符串(它不是完全可打印的,但您可以在下面看到它)导致 htmlspecialchars() 返回零长度字符串。有什么办法可以解决这个问题吗?

$Stmnt = 'SELECT subject_name FROM bans WHERE id = 2321';
$Fetch = $Conn->query($Stmnt);
if(!$Fetch)
die('Could not query DB');
while($Row = $Fetch->fetch_array(MYSQLI_ASSOC))
{
$RawName = $Row['subject_name'];
$RawLen = strlen($RawName);
echo('RAW NAME: ['.$RawName.']'.', LENGTH: ['.$RawLen.']'.'<br />');
for($i = 0; $i < $RawLen; $i++)
echo('CHAR '.$i.' = ['.$RawName[$i].'] (ORD: '.ord($RawName[$i]).')<br />');

$CleanName = htmlspecialchars($RawName, ENT_QUOTES, 'UTF-8');
$CleanLen = strlen($CleanName);
echo('CLEAN NAME: ['.$CleanName.']'.', LENGTH: ['.$CleanLen.']'.'<br />');
for($i = 0; $i < $CleanLen; $i++)
echo('CHAR '.$i.' = ['.$CleanName[$i].'] (ORD: '.ord($CleanName[$i]).')<br />');
}
$Fetch->close();
echo('DONE');

输出:

RAW NAME: [━═★ Coммander Fι5н �], LENGTH: [31]
CHAR 0 = [�] (ORD: 226)
CHAR 1 = [�] (ORD: 148)
CHAR 2 = [�] (ORD: 129)
CHAR 3 = [�] (ORD: 226)
CHAR 4 = [�] (ORD: 149)
CHAR 5 = [�] (ORD: 144)
CHAR 6 = [�] (ORD: 226)
CHAR 7 = [�] (ORD: 152)
CHAR 8 = [�] (ORD: 133)
CHAR 9 = [ ] (ORD: 32)
CHAR 10 = [C] (ORD: 67)
CHAR 11 = [o] (ORD: 111)
CHAR 12 = [�] (ORD: 208)
CHAR 13 = [�] (ORD: 188)
CHAR 14 = [�] (ORD: 208)
CHAR 15 = [�] (ORD: 188)
CHAR 16 = [a] (ORD: 97)
CHAR 17 = [n] (ORD: 110)
CHAR 18 = [d] (ORD: 100)
CHAR 19 = [e] (ORD: 101)
CHAR 20 = [r] (ORD: 114)
CHAR 21 = [ ] (ORD: 32)
CHAR 22 = [F] (ORD: 70)
CHAR 23 = [�] (ORD: 206)
CHAR 24 = [�] (ORD: 185)
CHAR 25 = [5] (ORD: 53)
CHAR 26 = [�] (ORD: 208)
CHAR 27 = [�] (ORD: 189)
CHAR 28 = [ ] (ORD: 32)
CHAR 29 = [�] (ORD: 226)
CHAR 30 = [�] (ORD: 148)
CLEAN NAME: [], LENGTH: [0]
DONE

最佳答案

我现在明白为什么它返回零长度字符串了。很抱歉问这个问题。我应该在发布之前进行更多研究。无论如何,答案如下:

关于PHP手册page for htmlspecialchars :

If the input string contains an invalid code unit sequence within the given encoding an empty string will be returned, unless either the ENT_IGNORE or ENT_SUBSTITUTE flags are set.

然后我问自己这个字符串的“无效”是什么?在维基上 page for UTF-8它给出了一个很好的 UTF-8 编码图。表示“纯文本 ASCII”的所有代码点均为 0-127(字节中的 MSB 始终为 0)。

如果一个字节的 MSB 是 1(十进制的 128 到 255),它告诉 UTF-8 兼容的解析器该代码点由一个多字节链组成。 下一个字节的前两个最高有效位必须是 1,后跟 0。

很明显在这个字符串中,有一个字节超过了127,后面的字节不是以1&0开头的,所以是无效的UTF-8编码。

感谢this SO post对于解决方案,在我看来,是使用 ENT_SUBSTITUTE 标志(或者我想 ENT_IGNORE 如果您确定删除这些不一致的字节不会是 a security issue )。

关于php - htmlspecialchars 导致文本消失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11705829/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com