- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们有一个批发 vendor ,我们从那里购买很多产品,我们为客户定制和转售。他们的一些产品我们库存,其他产品我们在客户订购时订购。我们在我们的网站上宣传这些产品,并通过我们的网站使它们可供购买(通过定制等),但 vendor 通常供应有限(尤其是这些不那么频繁的“特殊订购”产品)已售出),因此如果 vendor 的供应量过低,我们不会为产品做广告或提供可供购买的产品。
现在,这些产品有很多,每天我们都需要知道 vendor 对每种产品的可用数量是多少,这样我们就不会最终出售我们无法获得的东西。多年来,我们一直恳求 vendor 向我们提供 Web 服务或 ftp 站点,并提供每日转储或任何其他方式来获取可用的库存数据,而不是通过抓取他们的网站,相信我,我们已经恳求他们了很多,他们就是不会这样做。 (他们会说我们太忙了,也许明年我们会有一些东西,但 10 年后他们仍然没有任何东西。)所以我们不得不刮掉他们的网站。他们知道我们正在这样做,这不是我们俩都非常高兴的事情,但如果我们要销售这些产品,就必须这样做。
好吧,他们的网站现在使用 Angular,尝试抓取确实很痛苦。一年多来,我们有一个基于 Selenium 的爬虫工作得很好,但是在几个月前他们做了一些改变之后,它只是试图在他们的网站上运行 JavaScript 失败了。 (我遇到了各种晦涩难懂的错误和异常,而通常可以正常工作的事情却没有,因为似乎在与我尝试与之交互的任何 html 元素相关的事件上触发了 javascript,而且似乎 Selenium 有麻烦处理那个JavaScript。)我已经尝试了许多selenium的风格,所有可用的网络驱动程序,许多不同的配置尝试,各种不同的选项设置等等,我就是无法再成功地抓取那个网站了,所以我求助于使用禁用网络安全的浏览器,并运行一个 JavaScript 程序,在单独的窗口中打开他们的网站。 (我不能只在框架中打开它,因为他们经常使用 window.top。因为他们自己也使用框架。好玩有趣。)
因此,当我的爬虫登录并进行一些导航后,它没有问题,它必须将搜索值放入搜索框中,然后单击搜索按钮。好吧,该值很好地显示在搜索框中,但是当我的程序单击他们的搜索按钮时,他们的 JavaScript 明显清除了搜索字段,并最终生成了一条错误消息,提示我的搜索返回了超过 2000 种产品,好像我输入了一个空白值。
在检查他们的页面时,我看到了这一点:
<textarea id="searchBox" ng-model="searchParams.searchString" rows="3"
ng-blur="formatSearch()" class="ng-pristine ng-valid ng-touched"
style="">
</textarea>
<div ng-controller="AppCtrl" ng-class="routeClassName"
class="fluid-container ng-scope ViewProducts" style="">
最佳答案
我尝试向我正在打开的页面添加 Angular ,该页面加载我的爬虫,然后加载 vendor 的网站,然后使用它来尝试访问所需的 Angular 范围,但这不起作用。我试图通过他们的窗口对象访问他们页面上运行的 Angular ,但它不存在。
这是我必须做的:
var f = self.sitewin.top.document.querySelector('#contentFrame');
f.contentWindow.angular.element(tag).scope().searchParams.searchString = self.puid;
find: function (selector) {
var self = GTPScraper;
var tag = self.sitewin.document.querySelector(selector);
if (tag) return tag;
try {
tag = self.sitewin.top.document.querySelector('#contentFrame').contentDocument.querySelector(selector);
}
catch (e) {
// swallow errors about things that are null because something hasn't loaded yet - this function gets retried for up to a timeout length
}
return tag;
},
关于javascript - 从使用 Angular 的站点上抓取数据时,如何访问元素的 ng-model?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59793015/
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
PowerShell Web Access 允许您通过 Web 浏览器运行 PowerShell cmdlet。它显示了一个基于 Web 的控制台窗口。 有没有办法运行 cmdlet 而无需在控制台窗
我尝试在无需用户登录的情况下访问 Sharepoint 文件。 我可以通过以下任一方式获取访问 token 方法一: var client = new RestClient("https://logi
我目前正在尝试通过 Chrome 扩展程序访问 Google 服务。我的理解是,对于 JS 应用程序,Google 首选的身份验证机制是 OAuth。我的应用目前已成功通过 OAuth 向服务进行身份
假设我有纯抽象类 IHandler 和派生自它的类: class IHandler { public: virtual int process_input(char input) = 0; };
我有一个带有 ThymeLeaf 和 Dojo 的 Spring 应用程序,这给我带来了问题。当我从我的 HTML 文件中引用 CSS 文件时,它们在 Firebug 中显示为中止。但是,当我通过在地
这个问题已经有答案了: JavaScript property access: dot notation vs. brackets? (17 个回答) 已关闭 6 年前。 为什么这不起作用? func
我想将所有流量重定向到 https,只有 robot.txt 应该可以通过 http 访问。 是否可以为 robot.txt 文件创建异常(exception)? 我的 .htaccess 文件: R
我遇到了 LinkedIn OAuth2: "Unable to verify access token" 中描述的相同问题;但是,那里描述的解决方案并不能解决我的问题。 我能够成功请求访问 toke
问题 我有一个暴露给 *:8080 的 Docker 服务容器. 我无法通过 localhost:8080 访问容器. Chrome /curl无限期挂断。 但是如果我使用任何其他本地IP,我就可以访
我正在使用 Google 的 Oauth 2.0 来获取用户的 access_token,但我不知道如何将它与 imaplib 一起使用来访问收件箱。 最佳答案 下面是带有 oauth 2.0 的 I
我正在做 docker 入门指南:https://docs.docker.com/get-started/part3/#recap-and-cheat-sheet-optional docker-co
我正在尝试使用静态 IP 在 AKS 上创建一个 Web 应用程序,自然找到了一个带有 Nginx ingress controller in Azure's documentation 的解决方案。
这是我在名为 foo.js 的文件中的代码。 console.log('module.exports:', module.exports) console.log('module.id:', modu
我试图理解访问键。我读过https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-se
我正在使用 MGTwitterEngine"将 twitter 集成到我的应用程序中。它在 iOS 4.2 上运行良好。当我尝试从任何 iOS 5 设备访问 twitter 时,我遇到了身份验证 to
我试图理解访问键。我读过https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-se
我正在使用以下 API 列出我的 Facebook 好友。 https://graph.facebook.com/me/friends?access_token= ??? 我想知道访问 token 过
401 Unauthorized - Show headers - { "error": { "errors": [ { "domain": "global", "reas
我已经将我的 django 应用程序部署到 heroku 并使用 Amazon s3 存储桶存储静态文件,我发现从 s3 存储桶到 heroku 获取数据没有问题。但是,当我测试查看内容存储位置时,除
我是一名优秀的程序员,十分优秀!