- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
tldr; 我试图覆盖服务器所需的隐藏字段以返回一个新的地理缓存页面失败(__EVENTTARGET 属性),因此服务器返回一个空页面.
Ps:我的原始帖子因投票放弃而关闭,所以我在对第一篇帖子进行大量编辑后重新发布。
我尝试使用 Scrapy 1.5.0
抓取一些包含著名地理藏宝网站缓存的网页。
因为如果你想运行这个code,你需要一个帐户,我在网站上创建了一个新的临时免费帐户来进行一些测试:dumbuser
密码为 stackoverflow
A) 流程的实际工作部分:
https://www.geocaching.com/account/login
法国,上诺曼底
)搜索项目(geocaches)。这第一次搜索没有问题,我很容易解析第一个 geocaches。
B) 过程中的问题部分:请求下一页
当我尝试模拟点击转到地理藏宝的下一页时。例如转到第 1 页到第 2 页。
网站使用ASP with synchronised state between client and server ,因此我们需要先转到 page1,然后是 page2,然后是 page3,然后在抓取期间以此类推,以维护服务器在每个 FORM 查询之间生成的 __VIEWSTATE
变量(隐藏输入)。
每个数字的链接(见图片)调用一个带有 javascript 函数的链接 javascript:__doPostBack(...)
,在提交整个表单之前将内容注入(inject)到已经存在的隐藏字段中。
正如您在 __doPostBack
函数中所见:
<script type="text/javascript">
//<![CDATA[
var theForm = document.forms['aspnetForm'];
if (!theForm) {
theForm = document.aspnetForm;
}
function __doPostBack(eventTarget, eventArgument) {
if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
theForm.__EVENTTARGET.value = eventTarget;
theForm.__EVENTARGUMENT.value = eventArgument;
theForm.submit();
}
}
//]]>
</script>
例子:因此,当您单击第 2 页链接时,javascript 运行是 javascript:__doPostBack('ctl00$ContentBody$pgrTop$lbGoToPage_2','')
。表单与
__EVENTTARGET = ctl00$ContentBody$pgrTop$lbGoToPage_2
__EVENTARGUMENT = ''
C) 首先尝试模仿这种行为:
为了废弃许多页面(这里限制为五个第一页)我在这里尝试 yield
五个 formRequest.from_response
查询,它只是手动覆盖这个 __EVENTTARGET
__EVENTARGUMENT
属性:
def parse_pages(self,response):
self.parse_cachesList(response)
## EXTRACT NUMBER OF PAGES
links = response.xpath('//td[@class="PageBuilderWidget"]/span/b[3]')
print(links.extract_first())
## Try to extract page 1 to 5 for exemple
for page in range(1,5):
yield scrapy.FormRequest.from_response(
response,
formxpath="//form[@id='aspnetForm']",
formdata=
{'__EVENTTARGET':'ctl00$ContentBody$pgrTop$lbGoToPage_'+str(page),
'__EVENTARGUMENT': '',
'__LASTFOCUS': ''},
dont_click=True,
callback=self.parse_cachesList,
dont_filter=True
)
D) 后果:
服务器返回的页面是空的,所以我的策略有问题。
当我查看表单发布后服务器返回的生成的 html 代码时,__EVENTTARGET
永远不会被 scrapy 覆盖:
<input id="__EVENTTARGET" name="__EVENTTARGET" type="hidden" value=""/>
<input id="__EVENTARGUMENT" name="__EVENTARGUMENT" type="hidden" value=""/>
E) 问题:
你能帮我理解为什么 scrapy 不替换/覆盖这里的 __EVENTTARGET
值吗?我模拟点击关注每个新页面的用户的策略中的问题在哪里?
完整代码可在此处下载:code
更新 1:
使用 fiddler,我终于发现问题与输入有关:ctl00$ContentBody$chkAll=Check All
此输入由 scrapy.FormRequest.from_response 方法自动复制。如果我从 POST 请求中删除此属性,它就可以工作。那么,我怎样才能删除这个字段,我尝试清空没有结果:
result = scrapy.FormRequest.from_response(
response,
formname="aspnetForm",
formxpath="//form[@id='aspnetForm']",
formdata={'ctl00$ContentBody$chkAll':'',
'__EVENTTARGET':'ctl00$ContentBody$pgrTop$lbGoToPage_2',},
dont_click=True,
callback=self.parse_cachesList,
dont_filter=True,
meta={'proxy': 'http://localhost:8888'}
)
最佳答案
已解决 使用大量耐心,fiddler调试 POST 查询并将其重新发送到服务器的工具!
就像update 1在我原来的问题中说的那样,问题来自表单中的输入ctl00$ContentBody$chkAll
。
从 FormRequest
发送的 POST 表单中删除输入的方法很简单,我在 commit here 中找到了它.在 formdata
字典中将该属性设置为 None
。
result = scrapy.FormRequest.from_response(
response,
formname="aspnetForm",
formxpath="//form[@id='aspnetForm']",
formdata={'ctl00$ContentBody$chkAll':None,
'__EVENTTARGET':'ctl00$ContentBody$pgrTop$lbGoToPage_2',},
dont_click=True,
callback=self.parse_cachesList,
dont_filter=True
)
关于python - 为 asp doPostBack() 函数生成正确的 scrapy 隐藏输入表单值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48544207/
我在 mongodb 中的玩家和锦标赛之间存在多对多关系。 我希望能够一次将许多玩家添加到锦标赛中。如果没有 ajax,这很简单,但我们有一个包含数千名玩家的数据库,因此表单选择变得巨大。 我们想为此
这个问题已经有答案了: When should I use html's and when spring's in Spring MVC web app? (3 个回答) 已关闭 6 年前。 我正
我正在 C++ Builder XE4 上使用 VCL。 我有以下组件。 FormMain 具有 TButton *B_select; FormSelect(或DialogSelect)具有 TCom
如何在不影响表单控件的情况下更改表单的 alphablend? 德尔福XE7 最佳答案 此问题的一个解决方案是使用多设备应用程序(如果无法使用VCL)。 如果您需要保留透明的TForm,只需更改属性T
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我正在尝试扩展 Django 注册以包含我自己的注册表单。原则上这是相当简单的。我只需要编写自己的表单( CustomRegistrationForm ),它是原始表单( RegistrationFo
我正在尝试为我的网站实现聊天功能。为了做到这一点,我遵循了以下教程:https://channels.readthedocs.io/en/latest/tutorial/ 然后我稍微更改了代码以实现它
有一个问题,我需要用一个 html 表单提交两个相互关联的模型表单。我知道如何提交两个单独的表格,但是在相关模型表格的情况下外键让我发疯。 问题是,第二个表单应该用外键填充字段到第一个表单的实例。 在
我正在创建一个工具,允许某人输入食谱,然后将其保存为 XML 文件,我已经创建了 XSD,但我想知道如何在我的网页上制作一个表单以允许用户输入他们的食谱并遵守模式。我一直在研究 Ajax 和 Jque
在 .net win 表单(如 asp.net web 表单)中是否有可用的验证控件? 因为很难为我的每个控件设置正确的条件,所以我的表单中也有很多重复的代码。 正确的做法是什么? 最佳答案 看看这个
我有一个简短的问题。我正在学习如何使用 javascript 制作注册表,发现此链接非常有用。 http://www.w3resource.com/javascript/form/javascript
我正在开发一个项目,该项目将使用循环将许多表单添加到 mysql 数据库中。在 javascript 部分中,我无法让 var i 在函数 updatesum() 中工作。有人可以帮我吗? 我试图避免
在我的应用程序上有一个包含 2 个字段和一个保存按钮的表单。 在我的 onClick 结束时我需要什么来将光标返回到第一个字段。 我有这个来清除它们 txtData.setText("
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
<input type="text" name="textfield" onKeyPress="javascript:alert(event.
我正在构建的网站有一个登录表单,作为所有其他模板扩展的 base.html 模板的一部分;因此,我需要以某种方式处理每个页面上的登录/注销逻辑。 目前每个页面都在单独的 View 中加载,那么实现它的
我有一个表单类,看起来像.. #forms.py class ExampleForm(forms.Form): color = forms.CharField(max_length=25)
有没有办法在表单定义中给表单一个特殊的错误渲染函数?在 customizing-the-error-list-format 下的文档中它展示了如何为表单提供特殊的错误呈现函数,但似乎您必须在实例化表单
我正在处理由多个页面组成的表单,我想解决验证问题。 当我点击提交按钮时,当前页面上的所有字段都会在下方显示错误消息,但是如果我更改页面,那么我需要再次点击提交,因为这些字段未设置为已触摸。 如果我可以
是否可以附加到继承表单的 exclude 或 widgets 变量? 到目前为止,我有以下设置。 class AddPropertyForm(forms.ModelForm): num_mon
我是一名优秀的程序员,十分优秀!