gpt4 book ai didi

facebook - Scraper 在超过 ~390KB 的文件上失败

转载 作者:行者123 更新时间:2023-12-04 18:15:01 25 4
gpt4 key购买 nike

Facebook 的 URL 抓取工具是否有大小限制?我们在网站上有几本书。那些 HMTL 文件大小低于一定大小 (~390KB) 的文件会被抓取并正确读取,但较大的 4 个文件则不会。这些较大的项目会收到 200 响应代码,并且会打开规范 URL。
所有这些页面都是使用相同的模板构建的,唯一的区别是每本书中内容的大小以及每本书与网站上其他页面的链接数量。

  • 点击规范网址
  • 在 Firefox 中打开 Firebug 或在 Chrome 中打开开发者工具到网络选项卡
    3, *.html 大小在 >~390KB 为列出的失败和 <~390K 为成功
  • 点击“查看我们的抓取工具对您的 URL 看到的确切内容”
  • 失败时空白页,成功时显示 HTML

  • 失败:
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftapom.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftbgpu.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fttjc.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftbdse.html

  • 成功:
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fthogtc.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Faabibp.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftww.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftsosw.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fsyottc.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fttigtio.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Faadac.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Fsiud.html
  • https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Frcg.org%2Fbooks%2Ftuyc.html
  • 最佳答案

    您的问题的解决方案可能是检查真实用户或 Facebook 机器人是否正在访问您的页面。如果是机器人,则只为它渲染必要的元数据。您可以通过其用户代理检测机器人,根据 Facebook documentation是:"facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
    代码看起来像这样(在 PHP 中):

    function userAgentIsFacebookBot() {
    if ($_SERVER['HTTP_USER_AGENT'] == "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)") {
    return true;
    }
    return false;
    }

    关于facebook - Scraper 在超过 ~390KB 的文件上失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11915087/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com