php - 使用 file_get_contents() 进行抓取时强制使用桌面版网站-6ren

php - 使用 file_get_contents() 进行抓取时强制使用桌面版网站

转载作者：可可西里更新时间：2023-10-31 23:45:27

30

4

我正在使用 FriendsOfPHP/Goutte 包抓取网站。一切都很好。当用户将 URL 粘贴到输入中时，我正在为 image、title 等开放图形标签抓取网站。

当用户从移动设备复制 URL 时会出现问题，该 URL 现在是移动 URL，例如 https://m.datpiff.com/tape/818948 ，并且该 URL 上没有开放图标签。

当我访问相同的 URL 并将子域 m 替换为 www 时，例如https://www.datpiff.com/tape/818948从桌面，它将我重定向到:http://www.datpiff.com/Chance-The-Rapper-Jeremih-Merry-Christmas-Lil-Mama-mixtape.818948.html .

并且此桌面版 URL 确实包含开放图标签。

有没有办法让我的服务器强制或欺骗接收服务器将所有 URL 重定向到桌面版本，以便我可以使用开放图形标签？接收服务器已经重定向到正确的 URL，但前提是我直接从桌面上的浏览器输入。

这是我正在使用的代码 - 它运行良好。我只需要能够将我正在抓取的 URL 重定向到桌面版本。

首先我在我的 js 中将 m 替换为 www:

fullurl.replace('m.',"www");

转换https://m.datpiff.com/tape/818948进入https://www.datpiff.com/tape/818948

然后在我的 PHP 代码中我使用了这样的东西:

$url_to_scrape = $urltoscrape;
    $client = new Client();

    // Go to the example.com website
    $crawler = $client->request('GET', $url_to_scrape);


    $opengraphImage =$crawler->filterXpath('//meta[@property="og:image"]')->attr('content');
    $title = $crawler->filter('title')->text();

最佳答案

您需要传递 cookie 以将您重定向到桌面版:

name    value      domain          path
mredir    0    .www.datpiff.com     /

奇怪的是，如果你把m.与万维网。不起作用。也尝试添加桌面用户代理。

关于php - 使用 file_get_contents() 进行抓取时强制使用桌面版网站，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41324502/

30

4

0

文章推荐： node.js - AWS EC2，pm2 : Cannot see pm2 running list

文章推荐： php - 如何有条件地更改 laravel 5 中的邮件传输器？

文章推荐： node.js - 决定是保存到 devDependencies 还是 dependencies？

PHP file_get_contents 添加空格？
我正在使用 file_get_contents() 加载一个文本文件以放入文本区域，出于某种原因，每次加载它时，原始文本前后都会插入空格。我知道在保存过程中没有插入空格，因为我从我的 FTP 客户端检
php - file_get_contents 大文件上传
我正在尝试使用 fsockopen 上传超过 2gb 的大文件。但是 file_get_content 出现以下错误，我无法将大文件存储在内存中。我需要分块发送数据，但不知道如何执行此操作。请问有人可
php - file_get_contents 不适用于承载
我一直收到这个错误 Warning: file_get_contents failed to open stream: HTTP request failed! HTTP/1.1 401 Unauth
php - 带有查询字符串的 file_get_contents
我正在尝试从 php 发送电子邮件我有一个包含所有值的 php 文件和其他 php 模板文件。 (两个文件在同一台服务器上) 例如，我正在使用 file_get_contents 获取 php 模板文
PHP file_get_contents() 超时？
我正处于构建 PHP 应用程序的早期阶段，其中一部分涉及使用 file_get_contents()从远程服务器获取大文件并将它们传输给用户。例如，要获取的目标文件是 200 mB。如果下载到服务器
php - 如何安全地使用 file_get_contents？
我正在为我的博客的示例代码文件夹制作一个基本的 PHP 源代码查看器。我这里的内容是否足以让它永远不允许查看此脚本所在目录之外的文件或此脚本目录的子目录？我猜还有比 startsWith 更好的解
php - 不能使用动态创建位置的 file_get_contents
我正在尝试使用 file_get_contents() 从页面获取 html。以下效果很好:file_get_contents('http://www.mypage.com?Title=Title'
php - file_get_contents 是多行吗？
file_get_contents 是否维护换行符？我认为它做到了，但我已经尝试过: if($conn){ $tsql = file_get_contents('scripts/CreateT
php - 容错 file_get_contents
我有一个具有以下架构的网站: End user ---> Server A (PHP) ---> Server B (ASP.NET & Database)
php - file_get_contents 创建一个空文件
在 if 子句中用作测试条件时，如何防止 file_get_contents 创建空文件？无论如何都会创建一个空文件，这会导致在不同方法中对 getimagesize() 的后续调用失败。问题是，
php - file_get_contents 在您自己的本地机器中获取文件
我目前正在本地机器上测试我的代码，我希望它能够读取和写入我拥有的文本文件，所以我有以下代码: Warning: file_get_contents(~/Desktop/insta_user.txt):
php - file_get_contents 替代函数或方法？
在某人的服务器中，出于安全原因，file_get_contents 被禁用。我需要检索 xml 数据。那么，最好的做法是: 验证服务器是否支持file_get_contents？ file_get_c
php - file_get_contents()无法打开流
This question already has answers here: Warning: file_get_contents(): https:// wrapper is disabled i
php - 页面加载x秒后从网页获取响应(file_get_contents)
在载入x秒钟后，是否有任何方法可以获取网页响应？例如，我想创建一个获取youtube视频评论数量的api，但是正如您所知，当您打开youtube视频链接时，它会像加载评论一样2秒钟，因此，如果您知道
php - file_get_contents()无法与YouTube一起使用
我正在尝试像这样从youtube读取视频信息: $vid='WwVZBfMlNPA'; $vurl='http://youtube.com/get_video_info?video_id='.$vid
php - file_get_contents 得到错误的结果
更新我解决了问题并发布了答案。但是，我的解决方案并不是 100% 理想。我宁愿只使用 clearstatcache(true, $target) 或 clearstatcache(true, $li
php - file_get_contents() 的更快替代方案
目前，我正在使用 file_get_contents() 将 GET 数据提交到网站数组，但在执行页面时出现此错误: fatal error :超出最大执行时间 30 秒我真正希望脚本做的就是开始加
php - 'file_get_contents' 内容已加密？
问题是当我使用file_get_contents从该网站获取源代码(HTML)时，我收到的结果不是纯html代码。我使用的代码: $source = file_get_contents("http:
php - file_get_contents() 突然不起作用
这是我的全部代码: Playlist to Scrape: "; $fullUrl = array(); foreach($output[1] as $ur
php - file_get_contents 有时找不到文本
我是 PHP 新手，所以请多多关照:) 有时 file_get_contents 会完成其工作，有时则不会。我在网页上构建了一个简单的 URL 检查(如果存在)。但问题是，即使 URL 确实存在(手动

首页

博学

6Ren·AI

商城

php - 使用 file_get_contents() 进行抓取时强制使用桌面版网站