gpt4 book ai didi

Python 和封装

转载 作者:太空宇宙 更新时间:2023-11-03 11:05:41 26 4
gpt4 key购买 nike

我一直在抓取一个网站并且它可以工作,但突然它不再工作了,我在他们的网站上发现了 incapsula 保护。我阅读了新的服务条款,它提到只要在人类可以做的范围内,就可以从他们的网站获取信息。但是现在的问题是我的脚本遇到了看起来像的 incapsula javascript

var z="";var bfor (var i=0;i<b.length;i+=2){z=z+parseInt(b.substring(i, i+2), 16)+",";}z = z.substring(0,z.length-1); eval(eval('String.fromCharCode('+z+')'));

当我解码它时,我发现

eval(
'try{var xhr;var t=new Date().getTime();var status="start";var timing=new Array(3);window.onunload=function(){timing[2]="r:"+(new Date().getTime()-t);myvar="/_Incapsula_Resource?ES2LURCT=67&t=78&d="+encodeURIComponent(status+" ("+timing.join()+")")};if(window.XMLHttpRequest){xhr=new XMLHttpRequest}else{xhr=new ActiveXObject("Microsoft.XMLHTTP")}xhr.onreadystatechange=function(){switch(xhr.readyState){case 0:status=new Date().getTime()-t+": request not initialized ";break;case 1:status=new Date().getTime()-t+": server connection established";break;case 2:status=new Date().getTime()-t+": request received";break;case 3:status=new Date().getTime()-t+": processing request";break;case 4:status="complete";timing[1]="c:"+(new Date().getTime()-t);if(xhr.status==200){parent.location.reload()}break}};timing[0]="s:"+(new Date().getTime()-t);xhr.open("GET","/_Incapsula_Resource?SWHANEDL=2760571929000792804,16570437750381368532,5917353777095635421,175639",false);xhr.send(null)}catch(c){status+=new Date().getTime()-t+" incap_exc: "+c;myvar="/_Incapsula_Resource?ES2LURCT=67&t=78&d="+encodeURIComponent(status+" ("+timing.join()+")")};'
);

但是使用 pyV8 评估导致错误的语句

ReferenceError: ReferenceError: document is not defined (  @ 1 : 68 )  -> send(null)}catch(c){status+=new Date().getTime()-t+" incap_exc: "+c;document.c

似乎 PyV8 没有创建文档对象,所以它失败了,当我将 document.createElement("img").src 替换为类似变量的东西时,该变量将有字符串

myvar = "/_Incapsula_Resource?ES2LURCT=67&t=78&d=start0%20incap_exc%3A%20ReferenceError%3A%20window%20is%20not%20defined%20(%2C%2C)"

它似乎知道没有窗口存在,我该如何抓取这样使用封装的网站?

最佳答案

为此,我建议使用 Selenium。它允许您连接到浏览器并从中提取所有内容。浏览器负责呈现页面,包括任何 javascript,然后您可以访问 dom 并拉取您需要的内容。

http://docs.seleniumhq.org/

关于Python 和封装,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20116666/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com