- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在使用 Python 进行一些繁重的网络抓取。在某些情况下,发布数据不是通过表单提交发送的,而是通过一些 Javascript 发送的,我无法通过这种方法与之交互。为了避免这种情况,我一直在将发布请求的名称和值附加到 url,然后访问该 url。
在我遇到一个使用这种结构的网站之前,这种方法一直很好用:[sitename].com/?[pagename].do/。我承认我完全不知道这个 .do扩展,尽管一些简单的搜索告诉我它与 Struts 和基于 Java 的后端有关。在这种情况下,它似乎是一种动态生成表的方式;我正在尝试过滤该表的结果。我想输入的是类似 [sitename].com/?[pagename].do?[name]=[value]&[name]=[value] 的内容,但这不起作用,它甚至看起来也不应该起作用。我尝试使用多种语法变体。好像这里发生了一些我不太明白的事情。
我希望我能引导您到实际站点,但不幸的是,由于该项目的敏感性,我不能。不过,如果有任何其他信息有助于提供答案,请告诉我。提前致谢。
编辑:这并不是一个真正的“我的代码不工作”的问题,因为它是我想在我的代码中模拟的底层功能,这让我很困扰,但我会尽我最大的努力变得更加坚韧。根据契约(Contract)规定,我不能分享我们正在研究的网站的名称,但我会尝试对问题进行建模。我希望对将此 .do 页面发送到浏览器的后端事件有一定了解的人能够阐明。
import urllib
import urllib2
#
## case 1: a site that i have success in scraping
url = 'http://[sitename]/[pagename]'
values = {'s' : '40', 'pg' : '1'}
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()
print the_page #i get the filtered data that i am looking for
#
## case 2: the site that poses a problem for the encoding of post parameters
url = 'http://[sitename]/?[pagename].do/' # this site uses a .do file to generate
# the content i want to filter. note that the page name is preceded by ?.
values = {'s' : '40', 'pg' : '1'}
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()
print the_page # i am taken back to the root of the site,
# the same result i would get if i entered nonsense
# post parameters that did not correspond with actual control names.
这也是页面上一些 javascript 的示例,它完成了我想用我的抓取工具做的事情:
function page_next (id) {
$("#loading").fadeIn("normal");
$.post("/?dumps.do/", {s: id, pg: 2},
function( data ) {
var content = $( data ).find( '#dumps' );
}
)
}
最佳答案
我不知道你在解析哪个站点,但是这个:[sitename].com/?[pagename].do/
不是我称之为默认 Struts 行为的东西,假设它确实是一个 Struts 应用程序。
.do
扩展确实是 Struts 用来作为请求映射的东西,但在那种情况下,URL 应该是 [sitename].com/[pagename].do
不是 [sitename].com/?[pagename].do/
在第二种形式中,操作实际上是查询字符串中的一个参数。这就是此语法被破坏的原因:[sitename].com/?[pagename].do?[name]=[value]&[name]=[value]
。您想要向操作发送查询字符串,但操作本身是查询字符串中的参数。
但这不是问题。问题在于该站点正在使用该参数执行某些操作,并希望以某种方式接收它的数据,而这种方式您无法进行逆向工程。
再次假设这是一个Struts应用程序,Struts使用一个前端 Controller 拦截所有的action.do
URL,然后使用action调用应用程序中的一个特定类,一个被映射的类到那个特定的 Action 。此格式应为 [sitename].com/[pagename].do
。这类似于拥有 [sitename].com/[pagename].php
。
但将操作作为参数让我觉得该站点有一个不同的前端 Controller (不是 Struts 的),它从查询字符串中获取参数并将其传递到下游的 Struts 框架。
采用这种处理请求的时髦方式可能有很多原因,包括让其他人更难抓取网站,尽管这看起来有点直截了当:
$.post("/?dumps.do/", {s: id, pg: 2}, ...
您是否尝试过使用查询字符串中的操作对应用程序的根目录执行 POST?
关于http - 无法将 POST 参数输入到 ".do"页面的 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27235525/
我已经制作了一个用于报名参加 Activity 的小应用程序。用户输入他们的数据,然后单击“登录我”。 现在有时人们在数据库中是双倍的,完全相同的数据彼此之间很快被插入了两次。这只能表示某人单击了两次
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: PHP: “Notice: Undefined variable” and “Notice: Undefin
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: PHP: “Notice: Undefined variable” and “Notice: Undefin
我正在尝试将数据从 Textarea 发布到经典的 ASP 脚本,该脚本更新本地计算机上的 MS SQL,然后发布到另一台服务器上的 PHP 脚本。但是,执行以下操作不起作用,因为它会切断文本区域的数
无效的代码: login_form = page.form_with(:method => 'post') 和有效的代码: login_form = page.form_with(:method =>
我希望能够在 HTTP Post 请求被触发时拦截它,然后修改其请求正文(或参数),然后发送它。 这怎么可能用 jquery/js 实现。 谢谢 最佳答案 Jquery ajax beforeSend
我想编写一个 Mysql 语句,从表(发布)中选择所有内容,其中标题类似于 $title 除了 $title 的标题。基本上我想显示某个帖子的所有相关帖子。我希望查询选择表中标题或详细信息中具有标题名
我已经成功创建了一个简单的 HTML 表单,它将上传的文件发布到我的 Amazon S3 存储桶。我遵循了以下说明: http://aws.amazon.com/articles/1434 现在我正在
我正在实现一个 PayPal IPN 页面,并想检查以确保请求真正来自 PayPal 而不是被欺骗。我假设 HTTP_REFERRER 不是一个好的检查方式?我已经尝试过这种方法,但变量只是空的。 有
我有一个非常简单的设置有一个非常特殊的问题。 该设置部署了 nginx Web 服务器以提供一些静态页面。它还有一个用于处理 POST 请求的后端 uwsgi 守护进程。 我的nginx位置配置如下
我认为我做错了什么,或者误解了我在网上阅读的有关 POST 和 GET 请求的内容。我在 myNumber.ejs 上有一个提交表单。当我按下提交时,有 Add.ejs 的 View 。 Add.ej
我需要将数据从 Express 应用程序的前端发送到后端,然后使用需要显示该数据的 EJS 呈现页面。 问题是 app.post() 方法,随后 res.render() 函数似乎没有完全执行或者当我
根据AWS Documentation对于 CloudFormation cfn-hup 帮助程序脚本,cfn-hup Hook 可以具有“要检测的以逗号分隔的条件列表”。这些条件/触发器可以是 po
位于“wp-admin/includes/”的“post.php”文件中的 wordpress 函数“get_default_post_to_edit”无法正常工作。 当我加载页面时:wp-admin
我使用请求库发布数据,但在服务器上收到空主体,没有传递任何数据。我在代码中遗漏了什么吗? Map map = new Map(); map[csrfNameKey] = csrfName;
我正在尝试使用 siege 3.0.1 测试我的网站。但是好像siege不发送POST数据。这是我从网络浏览器收到的请求 POST / HTTP/1.0 Accept: text/html,appli
我正在尝试为 stockfigher 游戏 api 编写包装器,只是为了了解 feign 是如何工作的,而且我在第一个 POST 方法中遇到了问题: @RequestMapping(method =
如何使用 Jersey 获取原始 POST? @FormParam将不起作用,因为我发布的原始 JSON 不在任何特定的 POST 字段中。 最佳答案 Jersey 带有一个用于将 JSON 映射到
我正在尝试同时创建一个实体和两个子实体的实例。 如果我将以下 JSON 发布到/user_objects 资源,它会很高兴地创建父 user_object 实体和链接的 User_object_att
在 IPV6 中如何使用 IPV6 地址和端口号构建 CURL POST http 请求。任何类型的线程都将受到赞赏。 尝试构建如下请求 >curl --interface 'http://[2001
我是一名优秀的程序员,十分优秀!