gpt4 book ai didi

php - 不可能用 html 解析 facebook 公共(public)配置文件

转载 作者:行者123 更新时间:2023-11-28 05:07:03 25 4
gpt4 key购买 nike

我从这个网址抓取了一个 html:http://facebook.com/zuck将它回显到客户端浏览器没有问题,但我发现无法用 php 解析它。

我正在尝试解析 div 标签内的文本,例如:

preg_match_all("/<div class=\"mediaPageName\">(.*)<\/div>/",$html,$matches);
print_r($matches);

返回空数组我还尝试使用 DOMDocument 和 PHP Simple HTML DOM Parser,它们都返回空元素并且无法获取 html 的文本。

这怎么可能?有解决办法吗?

最佳答案

很有可能。

最简单的方法是将完整的 DOM 加载到 DOMDocument 或 phpQuery

编辑:

通过查看所提供链接的源代码,您正在搜索的元素正在替换少于字符,<使用 unicode 表示:\u003c .

示例:\u003cdiv class=\"mediaPageName\">Nirvana\u003c\/div>

编辑 2:
正如其他人所提到的,不要在不必要时解析 HTML。但正如 Frank Farmer 所提到的,在这种情况下看起来这是必需的。

这个正则表达式会找到一些匹配项(每行只有一个,希望有人可以调整它以获得所有匹配项)。 preg_match_all('%\\\\u003cdiv class=.*mediaPageName[^>]*>([^>]*)\\\\u003c%i', $html, $matches);

了解如何使用 Unicode 正则表达式可能是值得的 here .

关于php - 不可能用 html 解析 facebook 公共(public)配置文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6208216/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com