python请求post返回纯文本-6ren

python请求post返回纯文本

转载作者：行者123 更新时间：2023-12-01 00:59:58

25

4

就像标题中所述，我正在尝试抓取一个需要使用post而不是get的网站。

下面是代码，任何帮助将不胜感激

headers = {'Accept-Encoding': 'gzip, deflate',
           'Accept-Language': 'en,zh;q=0.9,zh-CN;q=0.8',
           'Connection': 'keep-alive',
           'Content-Length': '71',
           'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8',
           'Cookie':'acw_tc=65c86a0915562424980896166e8d7e63f2a68a3ce0960e074dfd8883b55f5a; __utmc=105455707; __utmz=105455707.1556243245.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); ajaxkey=1F7A239ABF2F548B9A3EF4A0F6FF5FDC66906C5D06FBF3C0; __utma=105455707.894288893.1556243245.1556400728.1556404658.5; __utmt=1; __utmb=105455707.1.10.1556404658; SERVERID=8abfb74b5c7dce7c6fa0fa50eb3d63af|1556404667|1556404656',
           'Host': 'www.ipe.org.cn',
           'Origin': 'http://www.ipe.org.cn',
           'Referer': 'http://www.ipe.org.cn/GreenSupplyChain/Communication.aspx',
           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
           'X-Requested-With': 'XMLHttpRequest'}

url = "http://www.ipe.org.cn/data_ashx/GetAirData.ashx"
from_data = {'cmd': 'getcommunicationlist',
             'pageSize': 4,
             'pageIndex': 2,
             'industryId': 'on',
             'storyId': 0}
html = requests.get(url,
                     data=from_data,
                     headers=headers)

bsobj = BeautifulSoup(html.content,'html.parser')
bsobj # just a part of all the results
{isSuccess:'1',content:'%3Cul%3E%3Cli%3E%3Ctable%3E%3Ctr%3E%3Ctd%3E%3Cimg%20id%3D%223

我可以成功到达该网站，但我无法理解返回的结果(它既不是 html/xml 也不是 json，只是文本/纯文本，为什么会发生这种情况？此外，这种方法不会返回我的所有内容实际上可以观察这个页面，但是使用 selenium 可以(这很慢，所以我试图找到更好的解决方案)。

我想要的结果如果find("div", {"class": "f26"}))应该返回类似“插入一 block 泡沫 Material 排放对违规记录进行整改”(这个网站有英文版本)，除了只有 HTML 标签或没有。编辑:

我知道在通常情况下，我可以使用 bs 来解析结果，但我不能使用它，因为返回的类型只是 text/plain，如果您可以尝试上面的代码，那就太好了。

最佳答案

这是一种非常hacky的方法，但它似乎有效......

从检查数据来看，服务器返回的相当于已转换为字符串的 Python 字典，例如

>>> s = str({'a': 'b'})
>>> s
"{'a': 'b'}"

从字符串中提取字典的常用方法是使用 ast.literal_eval ，但是ast.literal_eval无法计算字符串(失败并显示 ValueError: malformed node or string: <_ast.Name object at 0x7f719518c7b8> )^*。

然而，字符串化字典似乎只有两个键，“isSuccess”和“content”。只有“content”的值是我们感兴趣的，因此我们可以从字符串中提取它。

quoted = re.sub(r'\{.*content:', '', html.text[:-1])

quoted看起来像这样:

quoted[:20]
"'%3Cul%3E%3Cli%3E%3C"

这看起来包含 % 编码的文本。可以使用 urllib.parse.unquote 进行解码:

unquoted = urllib.parse.unquote(quoted)

unquoted看起来像

unquoted[:60]
'\'<ul><li><table><tr><td><img id="3383" title="%u54C1%u724CX"'

这看起来更好，但看起来好像应该是 unicode 转义的字符序列在应该有“\”的地方有一个“%”。当后面跟着“u”和四个十六进制字符时，让我们尝试用反斜杠替换“%”。

replaced = re.sub(r'(%)(u[A-Fa-f0-9]{4})', r'\\\g<2>', unquoted)  
replaced[:60]
'\'<ul><li><table><tr><td><img id="3383" title="\\u54C1\\u724CX"'

这几乎是正确的，但是需要删除双反斜杠。将文本编码为 latin-1 将保留所有字节，然后使用“unicode-escape”编解码器进行解码将删除多余的反斜杠。

markup = replaced.encode('latin-1').decode('unicode-escape')
markup[:60]
'\'<ul><li><table><tr><td><img id="3383" title="品牌X" src="http'

这看起来足够好，可以传递给 BeautifulSoup。

soup = bs4.BeautifulSoup(markup)
soup.find("div", {"class": "con"})
<div class="con"><img src="/public/static/images/icons/g-gas.png"/> 废气<br/>● 环境违规事项：工业废气污染源；<br/>● 潜在影响：空气质量、公众健康。</div>

^* 我有兴趣知道为什么 ast.literal_eval无法解析字符串化的字典。

关于python请求post返回纯文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55885564/

25

4

0

文章推荐： firefox - 无法通过 Watir 连接到 Tor-Firefox

文章推荐： javascript - LocalStorage 未传递数字 9

文章推荐： python - 为什么我的 Python 循环要消耗所有内存？

post - 防止双重HTTP POST
我已经制作了一个用于报名参加 Activity 的小应用程序。用户输入他们的数据，然后单击“登录我”。现在有时人们在数据库中是双倍的，完全相同的数据彼此之间很快被插入了两次。这只能表示某人单击了两次
post - post 方法中的未定义索引
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: PHP: “Notice: Undefined variable” and “Notice: Undefin
post - post 方法中的未定义索引
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: PHP: “Notice: Undefined variable” and “Notice: Undefin
post - 通过 HTTP 请求 POST 发送 Post 数据
我正在尝试将数据从 Textarea 发布到经典的 ASP 脚本，该脚本更新本地计算机上的 MS SQL，然后发布到另一台服务器上的 PHP 脚本。但是，执行以下操作不起作用，因为它会切断文本区域的数
ruby - 无法使用字符串 'post' 但使用 'POST' 识别表单。 html 包含 'post'
无效的代码: login_form = page.form_with(:method => 'post') 和有效的代码: login_form = page.form_with(:method =>
javascript - 当触发特定 POST 请求时修改 HTTP POST 请求正文(post 参数)
我希望能够在 HTTP Post 请求被触发时拦截它，然后修改其请求正文(或参数)，然后发送它。这怎么可能用 jquery/js 实现。谢谢最佳答案 Jquery ajax beforeSend
php - 你怎么写“Select (all) From (table) Where posting=$posting except this posting？(Mysql)
我想编写一个 Mysql 语句，从表(发布)中选择所有内容，其中标题类似于 $title 除了 $title 的标题。基本上我想显示某个帖子的所有相关帖子。我希望查询选择表中标题或详细信息中具有标题名
post - S3 POST 上传最小策略
我已经成功创建了一个简单的 HTML 表单，它将上传的文件发布到我的 Amazon S3 存储桶。我遵循了以下说明: http://aws.amazon.com/articles/1434 现在我正在
post - PHP POST 推荐人
我正在实现一个 PayPal IPN 页面，并想检查以确保请求真正来自 PayPal 而不是被欺骗。我假设 HTTP_REFERRER 不是一个好的检查方式？我已经尝试过这种方法，但变量只是空的。有
post - nginx 不将 POST 数据转发到 uwsgi -- [UPDATE] flask 不读取 post 数据
我有一个非常简单的设置有一个非常特殊的问题。该设置部署了 nginx Web 服务器以提供一些静态页面。它还有一个用于处理 POST 请求的后端 uwsgi 守护进程。我的nginx位置配置如下
javascript - 为什么我的 HTML POST 请求表单没有通过 Express app.post？如何将数字变量传递给另一个 POST 请求？
我认为我做错了什么，或者误解了我在网上阅读的有关 POST 和 GET 请求的内容。我在 myNumber.ejs 上有一个提交表单。当我按下提交时，有 Add.ejs 的 View 。 Add.ej
javascript - jQuery $.post 和 $.ajax POST 请求不适用于 Express 中的 app.post() 方法
我需要将数据从 Express 应用程序的前端发送到后端，然后使用需要显示该数据的 EJS 呈现页面。问题是 app.post() 方法，随后 res.render() 函数似乎没有完全执行或者当我
amazon-web-services - AWS cfn-hup 配置中的 post.add、post.update 与 post.delete
根据AWS Documentation对于 CloudFormation cfn-hup 帮助程序脚本，cfn-hup Hook 可以具有“要检测的以逗号分隔的条件列表”。这些条件/触发器可以是 po
php - HTTP 500 错误但确实将数据存储到数据库 - Wordpress new-post.php、post.php、edit-post.php 在更新数据结构和插件后无法正常工作
位于“wp-admin/includes/”的“post.php”文件中的 wordpress 函数“get_default_post_to_edit”无法正常工作。当我加载页面时:wp-admin
post - 带有空体的 Flutter post 方法
我使用请求库发布数据，但在服务器上收到空主体，没有传递任何数据。我在代码中遗漏了什么吗？ Map map = new Map(); map[csrfNameKey] = csrfName;
post - Siege 不发送 POST 数据
我正在尝试使用 siege 3.0.1 测试我的网站。但是好像siege不发送POST数据。这是我从网络浏览器收到的请求 POST / HTTP/1.0 Accept: text/html,appli
post - Feign 无法使用 POST 方法
我正在尝试为 stockfigher 游戏 api 编写包装器，只是为了了解 feign 是如何工作的，而且我在第一个 POST 方法中遇到了问题: @RequestMapping(method =
post - 如何使用 Jersey 获取原始 POST？
如何使用 Jersey 获取原始 POST？ @FormParam将不起作用，因为我发布的原始 JSON 不在任何特定的 POST 字段中。最佳答案 Jersey 带有一个用于将 JSON 映射到
post - 使用扩展创建 OData POST 实体
我正在尝试同时创建一个实体和两个子实体的实例。如果我将以下 JSON 发布到/user_objects 资源，它会很高兴地创建父 user_object 实体和链接的 User_object_att
post - IPV6 curl POST 请求
在 IPV6 中如何使用 IPV6 地址和端口号构建 CURL POST http 请求。任何类型的线程都将受到赞赏。尝试构建如下请求 >curl --interface 'http://[2001

首页

博学

6Ren·AI

商城

python请求post返回纯文本