gpt4 book ai didi

php - Facebook 喜欢点播元内容抓取工具

转载 作者:可可西里 更新时间:2023-10-31 23:57:50 27 4
gpt4 key购买 nike

你们见过 FB 抓取你在 facebook 上发布的链接(状态、消息等),在你将它粘贴到链接字段后立即实时显示各种元数据、图像的缩略图、页面中的各种图像来自视频相关链接(如 youtube)的链接或视频缩略图。

有什么想法可以复制这个函数吗?我正在考虑几个齿轮 worker ,或者更好的只是做一个 xhr 请求并根据正则表达式或类似的东西解析内容的 javascript ...有什么想法吗?任何链接?有人已经尝试过做同样的事情并将其包装在一个不错的类(class)中吗?任何事物? :)

谢谢!

最佳答案

FB 从 HTML 中抓取元标记。

即当您输入 URL 时,FB 会显示页面标题,然后是 URL(截断的),然后是 <meta name="description"> 元素的内容。

关于缩略图的选择,我想可能FB只选择那些超过一定尺寸的,即跳过按钮图形,1px间隔等。

编辑:我不知道你在找什么,但这是一个 PHP 函数,用于从页面中抓取相关数据。
这使用来自 http://simplehtmldom.sourceforge.net/ 的简单 HTML DOM 库

我看过 FB 是如何做到的,看起来抓取是在服务器端完成的。

    class ScrapedInfo    {        public $url;        public $title;        public $description;        public $imageUrls;    }    function scrapeUrl($url)    {        $info = new ScrapedInfo();        $info->url = $url;        $html = file_get_html($info->url);        //Grab the page title        $info->title = trim($html->find('title', 0)->plaintext);        //Grab the page description        foreach($html->find('meta') as $meta)                if ($meta->name == "description")                        $info->description = trim($meta->content);        //Grab the image URLs        $imgArr = array();        foreach($html->find('img') as $element)        {                $rawUrl = $element->src;                //Turn any relative Urls into absolutes                if (substr($rawUrl,0,4)!="http")                        $imgArr[] = $url.$rawUrl;                else                        $imgArr[] = $rawUrl;        }        $info->imageUrls = $imgArr;        return $info;    }

关于php - Facebook 喜欢点播元内容抓取工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2962863/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com