gpt4 book ai didi

javascript - 由于来自 typography.com [更新] 的字体,Spiderable 包偶尔会工作

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:45:15 26 4
gpt4 key购买 nike

更新

好的,我已经找到错误了!我使用的字体来自 http://www.typography.com/如果我从 <head> 中删除指向字体的链接(或者甚至把它放在正文中)每次都能正确获取网站!

总结:如果您使用的是从远程域加载的 webfonts(也有某种许可证批准过程),那么spiderable 包会崩溃!


原问题:

所以我得到了这个使用 meteor.js 构建的简单网站。它在 Digital Ocean 上,使用 meteor up 部署(启用 phantomjs)并且它使用 spiderable包。

Here's the site, it's a simple portfolio .

现在当我做例子时 curl http://portfolio.new-doc.com/?_escaped_fragment_=它首先会返回一个空体(经典的无爬虫行为的 meteor ),但如果我在几秒钟内做同样的 curl ,它会返回正确的结果。 (如果我在我的机器上 curl localhost:3000 也是如此)。

所以首先 spiderable 包不做它的事情,然后它做。有点像第一次curl它返回空站点(但加载服务器上的所有发布/订阅)和第二个 curl它使用现在加载的订阅并返回正确的结果。

Google 网站管理员工具也是如此。我的第一个fetch as google bot返回一个空主体,第二个(如果在第一个之后快速生成)返回正确的页面。

该站点只有一个发布和一个订阅。发布要么从订阅中返回一个或多个页面,要么运行 this.stop() .订阅设置在 waitOn 中应用程序中唯一的功能 iron-router路线。这里没有复杂的东西。

由于 curl 命令有时会返回正确的结果,我认为错误不在发布/订阅中?

我过去曾使用过可爬取的包,但我也花了很多时间来解决它!
相当令人沮丧。

有什么想法吗?谢谢!

最佳答案

更新

好的,我已经找到错误了!我使用的字体来自 http://www.typography.com/如果我从中删除指向字体的链接(或者甚至将其放在正文中),则每次都能正确获取该网站!

总结:如果您使用的是从远程域加载的网络字体(同时进行某种许可批准过程),那么spiderable 包会崩溃!

关于javascript - 由于来自 typography.com [更新] 的字体,Spiderable 包偶尔会工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23802580/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com