gpt4 book ai didi

php - 包含 Unicode 字符的 DOMXPath 查询属性

转载 作者:行者123 更新时间:2023-11-28 00:37:02 24 4
gpt4 key购买 nike

是否可以访问包含 Unicode 类名的元素?

其实我是accessing this site , 但它们的类名以 Unicode 字符 U+1F41D HONEYBEE 🐝 为前缀

$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$doc = new \DOMDocument();
$doc->loadHTML($html);

$xpath = new \DOMXpath($doc);

$elements = $xpath->query("//[@class='🐝ap0']");
if (!is_null($elements)) {
foreach ($elements as $element) {
echo "<br/>[". $element->nodeName. "]";

$nodes = $element->childNodes;
foreach ($nodes as $node) {
echo $node->nodeValue. "\n";
}
}
}

不幸的是它抛出错误

ErrorException  : DOMXPath::query(): Invalid expression                                                                                                     
at /paht/to/test-dom.php:83
79| $doc->loadHTML($html);
80|
81| $xpath = new \DOMXpath($doc);
82|
> 83| $elements = $xpath->query("//[@class='🐝ap0']");
84| if (!is_null($elements)) {
85| foreach ($elements as $element) {
86| echo "<br/>[". $element->nodeName. "]";
87|

Exception trace:

1 DOMXPath::query("//[@class='🐝ap0']")
/paht/to/test-dom.php:83

我指的是 emoji code here , 尝试过 \uD83Dap0 也不起作用

最佳答案

好吧,在尝试 $doc->saveHTML() 并注意到所有 Unicode 字符都已损坏之前,我陷入了字符编码和诸如此类的问题。我的猜测是 DOMDocument::loadHTML 将所有内容都视为 ISO-8859-1,这是 HTML 4 的默认编码。因此,通过添加 XML 序言,我们可以将其解析为 UTF-8 .这允许您按类名搜索,无论它使用什么字符:

<?php
$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$prologue = '<?xml encoding="UTF-8">';
$doc = new \DOMDocument();
$doc->loadHTML($prologue . $html);
$xpath = new \DOMXpath($doc);
$elements = $xpath->query("//div[@class='🐝ap0']");
foreach ($elements as $element) {
echo "<br/>[". $element->nodeName. "]";
$nodes = $element->childNodes;
foreach ($nodes as $node) {
echo $node->nodeValue. " \n";
}
}

还值得注意的是,您的“无效表达式”错误不是由于蜜蜂造成的,而是因为您的查询中没有元素名称。在我的回答中我使用了 div,如果你想搜索你可以使用 * 的所有元素。

关于php - 包含 Unicode 字符的 DOMXPath 查询属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55623877/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com