gpt4 book ai didi

php - 即使设置了 UTF-8 编码,在浏览器中显示俄文字母的问题

转载 作者:行者123 更新时间:2023-12-03 19:15:57 25 4
gpt4 key购买 nike

我知道有一些类似的问题。然而,在阅读了关于该主题的答案和 gooling 之后,我仍然在努力在浏览器中显示俄语字母。我将它们存储在 .csv 文件中(以 UTF-8 编码,无 BOM)。在我读取 .csv 的 php 文件中(也以 UTF-8 编码,无 BOM)我声明了字符集:

 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

要打开并遍历 .csv 文件,我使用以下代码:

  if(($handle = fopen($path, "r")) !== FALSE) {
while (($data = fgetcsv($handle, 1000, $delimiter)) !== FALSE) {
...
}
}

要么什么都不显示,要么像这样:

 -ам-Зее

代替

 Целль-ам-Зее

还有什么我可以尝试的想法吗?

更新:

将浏览器编码设置为 UTF-8 后,我得到了正确的俄语字母。但是仍然有一些文本根本没有显示。我怀疑我在读取 .csv 文件时做了一些不正确的事情,简化版本是:

     if(($handle = fopen($path, "r")) !== FALSE) {
while (($data = fgetcsv($handle, 1000, $delimiter)) !== FALSE) {
echo $data[1];
}
}

(我省略了第一列并显示了第二列的内容,它总是被填充)

最佳答案

检查你的服务器配置

您是否将 Apache 配置为支持 <meta>字符集覆盖?默认情况下,它使用 ISO-8859-1 作为默认值并忽略出现在它提供的网页中的任何覆盖。

解决方案 #1/3

例如,您可以将其放入您的 .htaccess一个封闭目录的文件,现在你的网页将有他们的 <meta>重写荣幸:

AddDefaultCharset Off
AddCharset UTF-8 .html

Apache documentation状态:

This directive specifies a default value for the media type charset parameter (the name of a character encoding) to be added to a response if and only if the response's content-type is either text/plain or text/html. This should override any charset specified in the body of the response via a META element, though the exact behavior is often dependent on the user's client configuration. A setting of AddDefaultCharset Off disables this functionality. AddDefaultCharset On enables a default charset of iso-8859-1. Any other value is assumed to be the charset to be used, which should be one of the IANA registered charset values for use in MIME media types. For example:

   AddDefaultCharset utf-8     

AddDefaultCharset should only be used when all of the text resources to which it applies are known to be in that character encoding and it is too inconvenient to label their charset individually. One such example is to add the charset parameter to resources containing generated content, such as legacy CGI scripts, that might be vulnerable to cross‐site scripting attacks due to user‐provided data being included in the output. Note, however, that a better solution is to just fix (or delete) those scripts, since setting a default charset does not protect users that have enabled the “auto‐detect character encoding” feature on their browser.

直到我关闭 AddDefaultCharset , 我无法得到我的 <meta>标签工作。这是相当神秘和令人沮丧的。不过,一旦我这样做了,一切都会顺利进行。

解决方案 #2 of 3

如果您对 Apache 的配置文件具有写入权限,那么您可以更改服务器本身。但是,您必须确保没有其他东西依赖于旧的不可覆盖的设置。这是使用 .htaccess 的另一个原因.


当所有其他方法都失败时:解决方案 #3 of 3

如果您既不能更改整体服务器配置本身,也不能创建 .htaccess其下的任何内容都将遵守其自己的设置,那么您唯一的选择是对超过 127 的所有代码点使用数字实体。例如,而不是

Целль-ам-Зее

你必须改为使用

&#1062;&#1077;&#1083;&#1083;&#1100;-&#1072;&#1084;-&#1047;&#1077;&#1077;

&#x426;&#x435;&#x43B;&#x43B;&#x44C;-&#x430;&#x43C;-&#x417;&#x435;&#x435;

这样做的好处是它不再需要 <meta>覆盖和摆弄服务器或 .htaccess文件。缺点是它需要额外的翻译过程,这会干扰使用理解文字 UTF-8 的编辑器直接编辑文件的能力。

实体忽略编码

它起作用的原因是因为所有的 HTML 总是在 Unicode 中,所以字符号 1062 总是 CYRILLIC CAPITAL LETTER TSE等。实体编号始终表示 Unicode 代码点编号;它们绝不是文档编码中的数字。只有编码字节算作服务器或页面编码,而不是始终为 Unicode 的未编码代码点数。

这就是为什么我们可以使用类似 &#233; 的原因它总是意味着 LATIN SMALL LETTER E WITH ACUTE ,因为代码点 233 始终是该字符,即使网页本身应该采用其他编码(例如 MacRoman 中的 142 或 NextStep 中的 221)。

字符数总是Unicode数字,不关心编码。这是因为 HTML、XHTML 和 XML 等标记语言始终使用逻辑 Unicode 代码点编号,就像 Perl 和 Go 等编程语言一样。 (PHP 实际上只是字节,上面有一些 UTF-8 API,但是正如您自己了解到的那样,它仍然存在问题。这既是因为它的内部模型,也是因为 Web 服务器甚至 Web 客户端,所有这些都使 PHP 比大多数其他语言都复杂。)

即使您已使用 ISO-8859-1 为西里尔文编码您的网页,其中文字 0xC6 字节编码 Unicode U+0426,CYRILLIC CAPITAL LETTER TSE ,作为字符实体,您将使用 &#1062;&#x426; — 而不是 &#xC6;这是错误的,因为 U+00C6 是 LATIN CAPITAL LETTER AE .

类似地,如果您使用 MacCyrillic 编码,文字 0x96 字节将是 CYRILLIC CAPITAL LETTER TSE , 但由于数字实体始终采用 Unicode,因此您必须使用 &#1062;&#x426; — 而不是 &#x96; .

我更喜欢对所有网页只使用 UTF-8。好吧,对于新的,就是这样。我确实认识到存在遗留的非 Unicode 页面。那些我只是保持原样。

关于php - 即使设置了 UTF-8 编码,在浏览器中显示俄文字母的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7162595/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com