- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
在弄清楚如何启动 headless 浏览器来提供使用 javascript(具体来说是 sammy.js,具体来说是 sammy.js)来传送 AJAX 内容的站点的静态 HTML 快照时遇到了真正的麻烦。
我正在研究 Google 的使 AJAX 应用程序可抓取的规范:
http://code.google.com/web/ajaxcrawling/docs/getting-started.html
这在很大程度上非常好而且非常清楚,而且我在选择 ?_escaped_fragment_ URL 时没有任何问题。
大部分模板都是在服务器端完成的,所以我很想写一个 PHP 快照构建文件,它使用来自 sammy 应用程序代码(有很多路由)的相同正则表达式匹配以包含在各种模板文件中.然而,很多操作发生在 javascript 应用程序中,因此这意味着在 PHP 中镜像所有这些处理,这意味着同时维护两个文件,跨语言 - 这是大量的工作!
现在,我了解到您可以使用 Headless Browser 来“呈现”页面并执行所有 javascript(匹配 #!/路由并为请求提供正确的内容),然后返回整个 DOM 内容作为 HTML,将提供给 googlebot。
我搜索了很长时间,但找不到任何关于从 PHP 运行 headless 浏览器的分步指南(对于所有 Java 新手)。我想这意味着我只是不知道要搜索什么。
我想知道的是:设置和使用 headless 浏览器来提供这些 HTML 快照是否需要更多工作?如果是这样,是否值得这样做?
此外,如果您有任何指南可以指给我看,那就太好了!
谢谢!
乔斯
最佳答案
我认为您最好在服务器上复制您在客户端获得的内容。尽管这似乎是一项低效的工作,但它至少有一个明确且有限的范围。
大多数著名的 headless 浏览器都被设计为应用程序开发的测试工具。因此,它们的结构非常开放,如果您负责应用程序的 QA,这是一件好事,但如果您希望只做一件特定的事情
我用了Selenium-RC在特定项目上只做一件特定的事情,并发现处理所有与 Selenium 相关的问题很快就变成了一个项目本身。尽管 Selenium-RC 肯定可以完成您想要做的事情,但考虑到您想要完成的事情的特殊性,这似乎是一个巨大的 promise 。
(我自己是一个完全的 Java 业余爱好者,我不能真正评论 HTMLUnit,但仅就规范而言,它似乎比 Selenium-RC 更适合您的需求。尽管如果使用它有一些相同的设置和管理要求。)
所以回到在 PHP 中复制所有内容的替代方案......
请记住,您不需要 HTML 快照中的所有内容都与浏览器中的内容完全相同:只要您拥有核心内容和关键导航链接,GoogleBot 就会拥有大部分内容它需要的一切。您是否还需要将网站上的每个页面都编入索引?或者您能否确定几条真正最重要的路线,并提供这些路线的快照?您还可以使用网络分析或服务器日志数据来更好地告知快照优先级。
关于php - 如何使用 headless 浏览器从 PHP 提供 AJAX 应用程序的 HTML 快照?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5221569/
我开发了一个具有基本安全性的 Spring Boot 应用程序。我有两个具有相同路径和不同 http 方法的端点。当我使用默认密码/使用 application.yml 中给出的密码包含基本安全性时,
我的代码是这样的: 或者,像这样: 如果我首先列出 webm 源,Firefox 4 会播放它,但 Firefox 3.6 也会尝试播放它(但会失败,因为它不支持 webm)。
我希望提供一个泛型类型作为类型参数而不首先将其解析为具体类型。换句话说,我正在寻找一种方法来指定从基类继承时可以使用的类型映射函数。 示例(不正确的)语法,希望比我能解释得更好: abstract c
我在 .NET 中编写了一些桌面应用程序,它们既提供了用于正常使用的前端 GUI,也提供了用于其他需求(例如扩展、调度、自动化、高级使用等)的命令行界面。命名两个可执行文件的最佳做法是什么,因为它们构
我最近在这里思考了很多关于屏幕抓取以及它可能是一项什么样的任务。所以我提出以下问题。 作为网站开发人员,您是否会公开简单的 API 以防止用户抓取屏幕,例如 JSON 结果? 然后这些结果可以实现缓存
我正在为一个项目使用 Dojo 1.9,但我不明白 dojo.provide 的正确替代方案与传统风格相比,AMD 风格。我正在阅读 this文档页面。 很明显,这就是旧语法映射到新语法的方式: 旧
我正在开发一个 Angular 应用程序。当我使用 ng serve 正常运行它时,它运行没有任何错误.但是,当我运行 ng build --prod ,它给出了以下错误。 ERROR in Ille
我有一个 Mac 应用程序。在我的 Mac 应用程序中,我的屏幕之一有一个包含文本字段的 scrollView。在同一屏幕上,我有一个需要提供打印选项的按钮。可以打印文本字段的文本。打印按钮应调用 M
我已经成功地为普通媒体文件提供媒体文件,但是当我尝试提供管理媒体文件时,我失败了。请帮我找出问题所在,因为我已经尝试解决问题几个小时但没有运气(也一直在谷歌搜索并阅读有关提供静态文件的 django
我正在尝试创建一个简单的错误处理项目,它会在收到错误(例如 404、422 或 500)后为 JSON 提供错误数据。我使用来自 this 的代码网站,但它不适合我。 我实际上有这两个类: 基本 Co
假设我有一个名为 Number 的类(class),我打算对 Number 进行大量相等比较对象。我担心通用 Number::equals(Object o) 的“开销”(类比较等...)方法。在这种
假定以下情况: 对等方A只希望将音频流发送给对等方B 对等B只希望将视频流发送给对等A 从而, 与创建报价 var sdpConstraints = { “必填”:{ 'OfferToReceiveA
因为我有一些角度,所以我想检查角度模数 360°: double angle = 0; double expectedAngle = 360; angle.Should().B
这是我的程序中构建的 monad 堆栈: type Px a = ReaderT PConf (State PState) a 其中 PConf 和 PState 是保存应用程序的配置和状态的任意数据
因为我有一些角度,所以我想检查角度模数 360°: double angle = 0; double expectedAngle = 360; angle.Should().B
我有一个小程序需要以某些权限运行,这意味着加载时会显示一条警告消息。如果用户拒绝警告消息,我想重定向到错误页面并解释发生了什么。有什么办法可以做到这一点吗? 我研究过让计时器运行并在特定时间段后重定向
从我可以从 Firebase 文档中推断出,似乎需要服务器来提供静态内容(html和 javascript),所以你需要有一台托管机器和一个静态内容服务器在某处启动并运行,或某些服务托管静态站点。 对
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 3 年前。 Improv
我的项目根目录的静态文件夹中有一个文本文件。 我想提供它,所以我创建了: @csrf_exempt def display_text(request): content = retur
我目前正在研究指针,为了进一步理解我正在尝试使用指针将两个数值数组连接成一个。代码如下所示。 #include void concat(int **pa,int **pb,int **pc) {
我是一名优秀的程序员,十分优秀!