- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
就像标题中所述,我正在尝试抓取一个需要使用post
而不是get
的网站。
下面是代码,任何帮助将不胜感激
headers = {'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'en,zh;q=0.9,zh-CN;q=0.8',
'Connection': 'keep-alive',
'Content-Length': '71',
'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8',
'Cookie':'acw_tc=65c86a0915562424980896166e8d7e63f2a68a3ce0960e074dfd8883b55f5a; __utmc=105455707; __utmz=105455707.1556243245.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); ajaxkey=1F7A239ABF2F548B9A3EF4A0F6FF5FDC66906C5D06FBF3C0; __utma=105455707.894288893.1556243245.1556400728.1556404658.5; __utmt=1; __utmb=105455707.1.10.1556404658; SERVERID=8abfb74b5c7dce7c6fa0fa50eb3d63af|1556404667|1556404656',
'Host': 'www.ipe.org.cn',
'Origin': 'http://www.ipe.org.cn',
'Referer': 'http://www.ipe.org.cn/GreenSupplyChain/Communication.aspx',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
'X-Requested-With': 'XMLHttpRequest'}
url = "http://www.ipe.org.cn/data_ashx/GetAirData.ashx"
from_data = {'cmd': 'getcommunicationlist',
'pageSize': 4,
'pageIndex': 2,
'industryId': 'on',
'storyId': 0}
html = requests.get(url,
data=from_data,
headers=headers)
bsobj = BeautifulSoup(html.content,'html.parser')
bsobj # just a part of all the results
{isSuccess:'1',content:'%3Cul%3E%3Cli%3E%3Ctable%3E%3Ctr%3E%3Ctd%3E%3Cimg%20id%3D%223
我可以成功到达该网站,但我无法理解返回的结果(它既不是 html/xml 也不是 json,只是文本/纯文本,为什么会发生这种情况?此外,这种方法不会返回我的所有内容实际上可以观察这个页面,但是使用 selenium
可以(这很慢,所以我试图找到更好的解决方案)。
我想要的结果如果find("div", {"class": "f26"})
)应该返回类似“插入一 block 泡沫 Material 排放对违规记录进行整改”(这个网站有英文版本),除了只有 HTML 标签或没有。编辑:
我知道在通常情况下,我可以使用 bs
来解析结果,但我不能使用它,因为返回的类型只是 text/plain
,如果您可以尝试上面的代码,那就太好了。
最佳答案
这是一种非常hacky的方法,但它似乎有效......
从检查数据来看,服务器返回的相当于已转换为字符串的 Python 字典,例如
>>> s = str({'a': 'b'})
>>> s
"{'a': 'b'}"
从字符串中提取字典的常用方法是使用 ast.literal_eval ,但是ast.literal_eval
无法计算字符串(失败并显示 ValueError: malformed node or string: <_ast.Name object at 0x7f719518c7b8>
)*。
然而,字符串化字典似乎只有两个键,“isSuccess”和“content”。只有“content”的值是我们感兴趣的,因此我们可以从字符串中提取它。
quoted = re.sub(r'\{.*content:', '', html.text[:-1])
quoted
看起来像这样:
quoted[:20]
"'%3Cul%3E%3Cli%3E%3C"
这看起来包含 % 编码的文本。可以使用 urllib.parse.unquote 进行解码:
unquoted = urllib.parse.unquote(quoted)
unquoted
看起来像
unquoted[:60]
'\'<ul><li><table><tr><td><img id="3383" title="%u54C1%u724CX"'
这看起来更好,但看起来好像应该是 unicode 转义的字符序列在应该有“\”的地方有一个“%”。当后面跟着“u”和四个十六进制字符时,让我们尝试用反斜杠替换“%”。
replaced = re.sub(r'(%)(u[A-Fa-f0-9]{4})', r'\\\g<2>', unquoted)
replaced[:60]
'\'<ul><li><table><tr><td><img id="3383" title="\\u54C1\\u724CX"'
这几乎是正确的,但是需要删除双反斜杠。将文本编码为 latin-1 将保留所有字节,然后使用“unicode-escape”编解码器进行解码将删除多余的反斜杠。
markup = replaced.encode('latin-1').decode('unicode-escape')
markup[:60]
'\'<ul><li><table><tr><td><img id="3383" title="品牌X" src="http'
这看起来足够好,可以传递给 BeautifulSoup。
soup = bs4.BeautifulSoup(markup)
soup.find("div", {"class": "con"})
<div class="con"><img src="/public/static/images/icons/g-gas.png"/> 废气<br/>● 环境违规事项:工业废气污染源;<br/>● 潜在影响:空气质量、公众健康。</div>
* 我有兴趣知道为什么 ast.literal_eval
无法解析字符串化的字典。
关于python请求post返回纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55885564/
表架构 DROP TABLE bla; CREATE TABLE bla (id INTEGER, city INTEGER, year_ INTEGER, month_ INTEGER, val I
我需要拆分字符串/或从具有以下结构的字符串中获取更容易的子字符串。 字符串将来自 window.location.pathname 或 window.location.href,看起来像 text/n
每当将对象添加到数组中时,我都会尝试更新 TextView ,并在 TextView 中显示该文本,如下所示: "object 1" "object 2" 问题是,每次将新对象添加到数组时,它都会覆盖
我目前正在寻找使用 Java 读取网站可见文本并将其存储为纯文本字符串的方法。 换句话说,我想转换成这样: Hello stupid World进入“ Hello World ” 或者类似的东西 Un
我正在尝试以文本和 HTML 格式发送电子邮件,但无法正确发送正确的 header 。特别是,我想设置 Content-Type header ,但我找不到如何为 html 和文本部分单独设置它。 这
我尝试了上面的代码,但我无法绑定(bind)文本,我怎样才能将资源内部文本 bloc
我刚刚完成了 Space Shooter 教程,由于没有 GUIText 对象,所以我创建了 UI.Text 对象并进行了相应的编码。它在统一播放器中有效,但在构建 Web 应用程序后无效。我花了一段
我有这个代码: - (IBAction)setButtonPressed:(id)sender { NSUserDefaults *sharedDefaults = [[NSUserDefau
抱歉标题含糊不清,但我想不出我想在标题中做什么。无论如何,对于图像上的文本,我使用了 JLabel 文本并将其添加到图标中。 JLabel icon = new JLabel(new Imag
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。 这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
我在将 Twitter 嵌入到我从 HTML 5 转换的 wordpress 运行网站时遇到问题。 我遇到的问题是推文不是我的自定义字体... 这是我无法使用任何 css 定位的 HTML 代码,我正
我正在尝试找到解决由于使用以下形式的代码而导致的冗余字符串连接问题的最佳方法: logger.debug("Entering loop, arg is: " + arg) // @1 在大多数情况下,
我写了这个测试 @Test public void removeRequestTextFromRouteError() throws Exception { String input = "F
我目前正在创建一个正则表达式来拆分所有匹配以下格式的字符串:&[文本],并且需要获取文本。字符串可能类似于:something &[text] &[text] everything &[text] 等
有没有办法将标题文本从一个词变形为另一个词,同时保留两个词中使用的字母?我看过的许多 css 文本动画大多是视觉的,很少有旋转整个单词的。 我想要做的是从一个词过渡,例如“BEACH”到“CHANGE
总结matplotlib绘图如何设置坐标轴刻度大小和刻度。 上代码: ?
我在容器 (1) 中创建了容器 (2)。你能帮忙如何向容器(1)添加文本吗?下面是我的代码 return Scaffold( body: Padding( padding: c
我似乎找不到任何人或任何人这样做过。我试图限制我们使用的图像数量,并想创建一个带有渐变作为其“颜色”的文本,并在其周围设置渐变轮廓/描边 到目前为止,我还没有看到任何将两者结合在一起的东西。 我可以自
我正在为视频游戏暗黑破坏神 2 使用 discord.py 构建一个不和谐机器人。其中一项功能要求机器人从暗黑破坏神 2 屏幕截图中提取项目的名称和属性。我目前正在为此使用 pytesseract,但
我很难弄清楚如何旋转 strip.text theme 中的属性来自 ggplot2 .我使用的是 R 版本 3.4.2 和 ggplot2 版本 2.2.1。 以下是 MWE 的数据。 > dput
我是一名优秀的程序员,十分优秀!