- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
当使用 DOMDocument 解析 html 文档时,我从 nodeValue 获得了不同的编码。在我的开发环境中,我得到的是 UTF-8,但是当将脚本上传到网络服务器时,我得到的是 ISO-8859-1。
任何人都可以解释这种行为以及如何获得相同的编码吗?
<?php
header('Content-Type:text/html; charset=UTF-8');
$strHtml = file_get_contents("http://www.aftonbladet.se/senastenytt/ttnyheter/inrikes/article13397806.ab");
$objDOM= new DOMDocument();
@$objDOM->loadHTML($strHtml);
echo "Encoding: ". $objDOM->encoding."<br/>";
//Parse heading from DOMDocument
$objNodelist = $objDOM->getElementsByTagname('h1');
foreach ($objNodelist as $objElem)
{
$strNodeValue = $objElem->nodeValue; //get the
break;
}
echo 'nodeValue: "'.$strNodeValue.'"<br/>';
echo 'utf8_decode: "'.utf8_decode($strNodeValue).'"<br/>';
echo 'utf8_encode: "'.utf8_encode($strNodeValue).'"<br/>';
//Parse heading using substring from html
$strHeading = substr($strHtml , strpos($strHtml, '<h1 class="abS32">')+18, strpos($strHtml, '</h1>') - strpos($strHtml, '<h1 class="abS32">')-18);
echo 'Heading from substring: "'.$strHeading.'"';
?>
在开发环境中运行时的输出
编码:utf-8
nodeValue: "När semenmen inleds vankas åska"
utf8_decode: "N�r semenmen inleds vankas�ska"
utf8_encode: "När semenmen inleds vankas ¥ska"
来自子字符串的标题:“När semenmen inleds vankas åska”
在公共(public)网络服务器上运行时的输出
编码:utf-8
nodeValue: "När semenmen inleds vankas ¥ska"
utf8_decode: "När semenmen inleds vankas åska"
utf8_encode: "När semenmen inleds vankas ÃÂ¥ska"
来自子字符串的标题:“När semenmen inleds vankas åska”
显然 utf8_decode 需要在公共(public)网络服务器上使用,但不能在我的开发环境中使用。我想在两个系统上有相同的行为。有什么想法吗?
最佳答案
问题已通过更新 Web 酒店服务器上的 PHP 解决。
网上酒店的旧配置:
PHP版本:5.2.6-1+lenny13
libxml版本:2.6.32
网络酒店的更新配置:
PHP 版本 5.3.3-7+squeeze3
libxml 版本 2.7.8
脚本现在在两个环境中生成相同的输出
编码:utf-8
nodeValue: "När semenmen inleds vankas ¥ska"
utf8_decode: "När semenmen inleds vankas åska"
utf8_encode: "När semenmen inleds vankas ÃÂ¥ska"
来自子字符串的标题:“När semenmen inleds vankas åska”
关于PHP DOMDocument nodeValue 返回不同的编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6885979/
我有 2 个“DOMDocument”对象 - $original 和 $additional。我想要的是从 $additional DOMDocument 中获取所有子级并将其附加到 $origin
我有 2 个“DOMDocument”对象 - $original 和 $additional。我想要的是从 $additional DOMDocument 中获取所有子级并将其附加到 $origin
我有一个代码可以将 XML 文件保存到我的目录中。它在我的本地主机和我的共享主机中实际上就像一个魅力,但它在我的 Linux VPS 中不起作用。 我总是遇到这个错误: 警告:DOMDocument:
我试图从某些网页中获取“链接”元素。我无法弄清楚我做错了什么。我收到以下错误: Severity: Warning Message: DOMDocument::loadHTML() [domdocum
有什么区别: Msxml2.DOMDocument Msxml2.XMLHTTP ?当然,另一个问题是哪一个最适合我的目的,如下所述? 上下文是这样的 - 我有代码可以多次调用来检索网页。我正在寻找执
安装后 Windows Server 2012 和 Windows Server 2016 原生支持哪些版本的 MSXML 和 DOMDocument? 最佳答案 Modern versions of
安装后 Windows Server 2012 和 Windows Server 2016 原生支持哪些版本的 MSXML 和 DOMDocument? 最佳答案 Modern versions of
我正在使用以下代码: $doc = new DOMDocument(); $doc->loadHTML("From: fsong | #001I hate you DomDocument :(.you
我使用 xml、xsl 截取服务器的响应并提取所需的片段,以根据客户端请求从服务器响应中提取 html 片段。例如,假设 $content 在我们处理它之前有服务器响应。 $dom = new
我之前在 RapidXml 中询问过一个类似的问题,我现在想知道,相同但使用 Xerces-C。 我正在开发一个需要解析 xml 的 C++ 应用程序。 考虑以下几点: xml文件:file1.xml
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How can I get an element's serialised HTML with PHP's
我有以下 test.php文件,当我运行它时,关闭 标签被删除。 loadHTML(' console.log("hello");
$dom = new DOMDocument('1.0', 'UTF-8'); $dom->loadHTML($content); $divs = $dom->getElementsByTagName
获得除png扩展名以外的所有图像? $xpath = new DOMXPath( $htmlget); $nodelist = $xpath->query("//img[!ends-wi
我想删除所有 script 元素以及此处的代码 aaa EOF; $dom = new DOMDocument(); $dom->loadHTML($pageFile); foreach (
我想制作一个函数,向给定 html 的根标签添加一些属性。 我正在这样做: $dom = new \DOMDocument(); $dom->loadHTML($content);
我想制作向给定 html 的根标记添加一些属性的函数。 我这样做: $dom = new \DOMDocument(); $dom->loadHTML($content); $
我想做的是从 body 标签中获取脚本,但只有包含文本而不是脚本链接的脚本 例如。 console.log("for a test run"); 不是具有文件 src 的脚本。 我想将这些脚本放在页尾
我正在使用 domDocument 来解析这个小的 html 代码。我正在寻找具有特定 id 的特定 span 标签。 Hello world 我的代码: $dom = new domDocument
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。 这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
我是一名优秀的程序员,十分优秀!