- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
考虑这个例子,test.php
:
<?php
$mystr = "<p>Hello, με काचं ça øy jeść</p>";
var_dump($mystr);
$domdoc = new DOMDocument('1.0', 'utf-8'); //DOMDocument();
$domdoc->loadHTML($mystr); // already here corrupt UTF-8?
var_dump($domdoc);
?>
如果我使用 PHP 5.5.9 (cli) 运行它,我会进入终端:
$ php test.php
string(50) "<p>Hello, με काचं ça øy jeść</p>"
object(DOMDocument)#1 (34) {
["doctype"]=>
string(22) "(object value omitted)"
...
["actualEncoding"]=>
NULL
["encoding"]=>
NULL
["xmlEncoding"]=>
NULL
...
["textContent"]=>
string(70) "Hello, με à¤à¤¾à¤à¤ ça øy jeÅÄ"
}
显然,原始字符串是正确的 UTF-8,但 DOMDocument 的 textContent
编码不正确。
那么,如何在 DOMDocument 中获取正确的 UTF-8 内容?
最佳答案
DOM extension建立在 libxml2 上它的 HTML 解析器是为 HTML 4 制作的——默认编码是 ISO-8859-1。除非它遇到适当的元标记或 XML 声明,否则 loadHTML()
将假定内容为 ISO-8859-1。
创建 DOMDocument 时指定编码正如您所做的那样,不会影响解析器的工作 - 加载 HTML(或 XML)会替换您为其构造函数提供的 xml 版本和编码。
第一次使用mb_convert_encoding()
将 ASCII 范围以上的任何内容转换为其等效的 html 实体。
$domdoc->loadHTML(mb_convert_encoding($mystr, 'HTML-ENTITIES', 'UTF-8'));
或者修改指定 UTF-8 的元标记或 xml 声明。
$domdoc->loadHTML('<meta http-equiv="Content-Type" content="charset=utf-8" />' . $mystr);
$domdoc->loadHTML('<?xml encoding="UTF-8">' . $mystr);
关于php - UTF-8 与 PHP DOMDocument loadHTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39148170/
我有 2 个“DOMDocument”对象 - $original 和 $additional。我想要的是从 $additional DOMDocument 中获取所有子级并将其附加到 $origin
我有 2 个“DOMDocument”对象 - $original 和 $additional。我想要的是从 $additional DOMDocument 中获取所有子级并将其附加到 $origin
我有一个代码可以将 XML 文件保存到我的目录中。它在我的本地主机和我的共享主机中实际上就像一个魅力,但它在我的 Linux VPS 中不起作用。 我总是遇到这个错误: 警告:DOMDocument:
我试图从某些网页中获取“链接”元素。我无法弄清楚我做错了什么。我收到以下错误: Severity: Warning Message: DOMDocument::loadHTML() [domdocum
有什么区别: Msxml2.DOMDocument Msxml2.XMLHTTP ?当然,另一个问题是哪一个最适合我的目的,如下所述? 上下文是这样的 - 我有代码可以多次调用来检索网页。我正在寻找执
安装后 Windows Server 2012 和 Windows Server 2016 原生支持哪些版本的 MSXML 和 DOMDocument? 最佳答案 Modern versions of
安装后 Windows Server 2012 和 Windows Server 2016 原生支持哪些版本的 MSXML 和 DOMDocument? 最佳答案 Modern versions of
我正在使用以下代码: $doc = new DOMDocument(); $doc->loadHTML("From: fsong | #001I hate you DomDocument :(.you
我使用 xml、xsl 截取服务器的响应并提取所需的片段,以根据客户端请求从服务器响应中提取 html 片段。例如,假设 $content 在我们处理它之前有服务器响应。 $dom = new
我之前在 RapidXml 中询问过一个类似的问题,我现在想知道,相同但使用 Xerces-C。 我正在开发一个需要解析 xml 的 C++ 应用程序。 考虑以下几点: xml文件:file1.xml
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How can I get an element's serialised HTML with PHP's
我有以下 test.php文件,当我运行它时,关闭 标签被删除。 loadHTML(' console.log("hello");
$dom = new DOMDocument('1.0', 'UTF-8'); $dom->loadHTML($content); $divs = $dom->getElementsByTagName
获得除png扩展名以外的所有图像? $xpath = new DOMXPath( $htmlget); $nodelist = $xpath->query("//img[!ends-wi
我想删除所有 script 元素以及此处的代码 aaa EOF; $dom = new DOMDocument(); $dom->loadHTML($pageFile); foreach (
我想制作一个函数,向给定 html 的根标签添加一些属性。 我正在这样做: $dom = new \DOMDocument(); $dom->loadHTML($content);
我想制作向给定 html 的根标记添加一些属性的函数。 我这样做: $dom = new \DOMDocument(); $dom->loadHTML($content); $
我想做的是从 body 标签中获取脚本,但只有包含文本而不是脚本链接的脚本 例如。 console.log("for a test run"); 不是具有文件 src 的脚本。 我想将这些脚本放在页尾
我正在使用 domDocument 来解析这个小的 html 代码。我正在寻找具有特定 id 的特定 span 标签。 Hello world 我的代码: $dom = new domDocument
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。 这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
我是一名优秀的程序员,十分优秀!