php - 通过 PHP 使用 XSLT 的 UTF-8 编码问题

转载作者：行者123 更新时间：2023-12-02 06:24:17

25

4

在通过 PHP 通过 XSLT 转换 XML 时，我遇到了一个令人讨厌的编码问题。

问题可以总结/简化如下:当我用 XSLT 样式表复制一个(UTF-8 编码的)XHTML 文件时，一些字符显示错误。当我只显示同一个 XHTML 文件时，所有字符都正确显示。

以下文件说明了问题:

XHTML

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
        <title>encoding test</title>
    </head>
    <body>
        <p>This is how we d&#239;&#223;&#960;&#955;&#509; &#145;special characters&#146;</p>
    </body>
</html>

XSLT

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    version="1.0">

    <xsl:output method="xml" encoding="UTF-8"/>

    <xsl:template match="@*|node()">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()"/>
        </xsl:copy>
    </xsl:template>

</xsl:stylesheet>

PHP

<?php
  $xml_file = 'encoding_test.xml';
  $xsl_file = 'encoding_test.xsl';

  $xml_doc = new DOMDocument('1.0', 'utf-8');
  $xml_doc->load($xml_file);

  $xsl_doc = new DOMDocument('1.0', 'utf-8');
  $xsl_doc->load($xsl_file);

  $xp = new XsltProcessor();
  $xp->importStylesheet($xsl_doc);

  // alllow to bypass XSLT transformation with bypass=true request parameter
  if ($bypass = $_GET['bypass']) {
    echo file_get_contents($xml_file);
  }
  else {
    echo $xp->transformToXML($xml_doc);
  }
?>

当此脚本被调用时(通过例如 http://localhost/encoding_test/encoding_test.php )，转换后的 XHTML 文档中的所有字符都正常显示，除了和字符实体(它们打开和关闭单引号)。我不是 Unicode 专家，但有两件事让我印象深刻:

所有其他字符实体都被正确解释(这可能暗示了和的 UTF-8 特性)
然而，当 XHTML 文件直接显示时(例如通过 http://localhost/encoding_test/encoding_test.php?bypass=true )，所有字符都可以正确显示。

我想我已经尽可能地为输出声明了 UTF-8 编码。其他人是否可能看到问题所在并可以纠正？

提前致谢!

罗恩范登布兰登

最佳答案

和是不可见的 Unicode 字符。

它们是单引号的旧 HTML 字符引用¹，但是当您使用 XSLT 处理器处理它们时，处理器看不到单引号，而是十进制代码 145 和 146 的 Unicode 字符，即U+0090 and U+0091 .

这些字符是私有(private)使用的(即，Unicode 联盟未定义该用法)C1 control codes .

解决方案是使用正确的 Unicode 字符 ‘ 和 ’。

¹_{实际上，这些是映射到Windows-1252的代码编码。它们由浏览器显示，但实际上是 not valid in HTML :}

NOTE -- the above SGML declaration, like that of HTML 2.0, specifies the character numbers 128 to 159 (80 to 9F hex) as UNUSED. This means that numeric character references within that range (e.g. ’) are illegal in HTML. Neither ISO 8859-1 nor ISO 10646 contain characters in that range, which is reserved for control characters.

关于php - 通过 PHP 使用 XSLT 的 UTF-8 编码问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3666606/

25

4

0

文章推荐： c - 解释 C 代码片段 : preprocessor + printf =?

文章推荐： distributed-computing - 为分布式系统硕士学位做准备

文章推荐： .net - 我怎样才能提高我们的 .NET 生产力？

xslt - 使用 XSLT 从 XSLT 样式表中删除命名空间声明
我有一个 XSLT 样式表，如下所示: 我想使用第二个 XSLT 样式表来转换此样式表，以删除与 XQHead
xslt - 一个大的 xslt 优于更小、更细粒度的 xslt
我们有一个大型 xslt，可以呈现整个商店区域，包括产品、制造商，并根据价格和类别进行过滤。我使用 sitecore 作为 CMS，但遇到缓存问题。我有大约 9000 个项目，有些页面需要长达 20
xslt - XSLT:是否应用带有条件参数的模板？
我想根据条件的结果应用具有不同参数的模板。像这样： Attribute no. 1
xslt - 循环 XSLT
我有一些看起来像这样的 XML Foo Details Bar Details Baz Details Foo Blah Bar BlahBlah Baz BlahBlahBl
xslt - XSLT 中的矩阵转置
我试图从这种输入出发: a b c d e f g ... 使用 XSLT 的 HTML 输出: one two a e b f
xslt - xslt 中的第一个子节点名称
我想知道如何在 xslt 中找到特定节点的第一个子节点名称。我有一个 xml: some text 我可以使用 body/
xslt - XSLT 中上个月的最后一天
是否可以在 XSLT 中获取上个月的最后一天？我找到了这个函数:http://www.xsltfunctions.com/xsl/functx_last-day-of-month.html但我不确定如
xslt - xslt 中匹配命名空间的问题
具有特定节点的匹配元素存在问题。 xml: description of profile PhoneKeyPad S
xslt - XSLT 中的动态变量
我将一堆键值对作为参数传递给 XSL(日期 ->“1 月 20 日”，作者 ->“Dominic Rodger”，...)。我正在解析的一些 XML 中引用了这些 - XML 如下所示: 目前，除
xslt - xslt 中最后一个字符后的子字符串
我找不到这个问题的确切答案，所以我希望有人能在这里帮助我。我有一个字符串，我想在最后一个 '.' 之后获取子字符串。我正在使用 xslt 1.0。这是怎么做的？这是我的代码。
xslt - XSLT 中的变量范围
我在尝试找出 xslt 上的 var 范围时遇到问题。我实际上想要做的是忽略具有重复“旅游代码”的“旅行”标签。示例 XML: X1 Budapest X1 Budapest X
xslt - XSLT 中的动态排序？
我有一些数据在 xslt 的 for-each 循环中输出。我对列表进行了分页，但没有对排序选择器进行分页。用户应该能够对 2 个值(创建的数据和每个项目的数字字段)进行排序。默认的排序方法是创建日
xslt - XSLT 的奇怪排序要求
我有一个奇怪的要求。我在 xslt 中有一个包含月份的变量，带有它们的 id (1-12) 问题是我需要全部显示它们，但从一月(1)以外的月份开始。目前我有以下 JAN
xslt - 模块化 xslt？
如何在 xslt 转换中模块化一组重复的输出？例如，我有如下内容(伪代码)。并
xslt - XSLT 中的位置字符串拆分
我得到一个像这样的字符串。 13091711111100222222003333330044444400 字符串的模式是这样的 13 - 09 - 17 - 11111 - 100 - 22222 -
xslt - XSLT 中的设计和编码模式
我是 XSLT 的新手，有一个一般性问题。为了区分具有不同属性的两个元素，最好(也是为了性能)使用和而不是在一个模板中。据我所知，这就是 XSLT 中应该“思考”的方式。但在我看来，这有一个缺点
xslt - 如何从字符串中删除连字符 +xslt
如何从“19650512-0065”到“196505120065”这样的字符串中删除连字符使用这个模板:传递 theID =
xslt - XSLT 中的填充零
是否有任何功能可以在左侧填充零？我正在尝试做的要求是: 我们不知道即将到来的输入字符串长度。如果小于 20，我们必须在左侧填充零。如果输入字符串长度为 10，那么我们必须在左侧填充 10 个零。
xslt - XSLT 应用模板的默认选择是什么？
身份模板如下所示: 是否选择多于，或者身份模板可能是这样的？当我执行以下操作时，究竟选择了什么？最佳答案
xslt - XSLT 模板中的超链接
我正在尝试使用 XML 信息和 XSLT 模板创建超链接。这是 XML 源代码。 Among individual stocks, the top percentage gainers in the

首页

博学

6Ren·AI

商城

php - 通过 PHP 使用 XSLT 的 UTF-8 编码问题

XHTML

XSLT

PHP