python - 无法使用发布请求进入下一页-6ren

python - 无法使用发布请求进入下一页

转载作者：太空狗更新时间：2023-10-29 20:29:47

我用 python 编写了一个脚本，用于从网页中获取指向不同文章的不同链接。运行我的脚本后，我可以完美地获取它们。但是，我面临的问题是文章链接遍历多个页面，因为它们的数量很大以适合单个页面。如果我单击下一页按钮，我可以在开发人员工具中看到附加信息，这些信息实际上通过发布请求生成 ajax 调用。由于没有链接到下一页按钮，我无法找到任何方法进入下一页并从那里解析链接。我已经尝试使用 post 请求 和那个 formdata 但它似乎不起作用。我哪里错了？

Link to the landing page containing articles

这是我在单击下一页按钮时使用 chrome 开发工具获得的信息:

GENERAL
=======================================================
Request URL: https://www.ncbi.nlm.nih.gov/pubmed/
Request Method: POST
Status Code: 200 OK
Remote Address: 130.14.29.110:443
Referrer Policy: origin-when-cross-origin

RESPONSE HEADERS
=======================================================
Cache-Control: private
Connection: Keep-Alive
Content-Encoding: gzip
Content-Security-Policy: upgrade-insecure-requests
Content-Type: text/html; charset=UTF-8
Date: Fri, 29 Jun 2018 10:27:42 GMT
Keep-Alive: timeout=1, max=9
NCBI-PHID: 396E3400B36089610000000000C6005E.m_12.03.m_8
NCBI-SID: CE8C479DB3510951_0083SID
Referrer-Policy: origin-when-cross-origin
Server: Apache
Set-Cookie: ncbi_sid=CE8C479DB3510951_0083SID; domain=.nih.gov; path=/; expires=Sat, 29 Jun 2019 10:27:42 GMT
Set-Cookie: WebEnv=1Jqk9ZOlyZSMGjHikFxNDsJ_ObuK0OxHkidgMrx8vWy2g9zqu8wopb8_D9qXGsLJQ9mdylAaDMA_T-tvHJ40Sq_FODOo33__T-tAH%40CE8C479DB3510951_0083SID; domain=.nlm.nih.gov; path=/; expires=Fri, 29 Jun 2018 18:27:42 GMT
Strict-Transport-Security: max-age=31536000; includeSubDomains; preload
Transfer-Encoding: chunked
Vary: Accept-Encoding
X-UA-Compatible: IE=Edge
X-XSS-Protection: 1; mode=block

REQUEST HEADERS
========================================================
Accept: text/html, */*; q=0.01
Accept-Encoding: gzip, deflate, br
Accept-Language: en-US,en;q=0.9
Connection: keep-alive
Content-Length: 395
Content-Type: application/x-www-form-urlencoded; charset=UTF-8
Cookie: ncbi_sid=CE8C479DB3510951_0083SID; _ga=GA1.2.1222765292.1530204312; _gid=GA1.2.739858891.1530204312; _gat=1; WebEnv=18Kcapkr72VVldfGaODQIbB2bzuU50uUwU7wrUi-x-bNDgwH73vW0M9dVXA_JOyukBSscTE8Qmd1BmLAi2nDUz7DRBZpKj1wuA_QB%40CE8C479DB3510951_0083SID; starnext=MYGwlsDWB2CmAeAXAXAbgA4CdYDcDOsAhpsABZoCu0IA9oQCZxLJA===
Host: www.ncbi.nlm.nih.gov
NCBI-PHID: 396E3400B36089610000000000C6005E.m_12.03
Origin: https://www.ncbi.nlm.nih.gov
Referer: https://www.ncbi.nlm.nih.gov/pubmed
User-Agent: Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36
X-Requested-With: XMLHttpRequest

FORM DATA
========================================================
p$l: AjaxServer
portlets: id=relevancesortad:sort=;id=timelinead:blobid=NCID_1_120519284_130.14.22.215_9001_1530267709_1070655576_0MetA0_S_MegaStore_F_1:yr=:term=%222015%22%5BDate%20-%20Publication%5D%20%3A%20%223000%22%5BDate%20-%20Publication%5D;id=reldata:db=pubmed:querykey=1;id=searchdetails;id=recentactivity
load: yes

到目前为止，这是我的脚本(如果未注释，get 请求将完美运行，但对于第一页):

import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup

geturl = "https://www.ncbi.nlm.nih.gov/pubmed/?term=%222015%22%5BDate+-+Publication%5D+%3A+%223000%22%5BDate+-+Publication%5D"
posturl = "https://www.ncbi.nlm.nih.gov/pubmed/"

# res = requests.get(geturl,headers={"User-Agent":"Mozilla/5.0"})
# soup = BeautifulSoup(res.text,"lxml")
# for items in soup.select("div.rslt p.title a"):
#     print(items.get("href"))

FormData={
    'p$l': 'AjaxServer',
    'portlets': 'id=relevancesortad:sort=;id=timelinead:blobid=NCID_1_120519284_130.14.22.215_9001_1530267709_1070655576_0MetA0_S_MegaStore_F_1:yr=:term=%222015%22%5BDate%20-%20Publication%5D%20%3A%20%223000%22%5BDate%20-%20Publication%5D;id=reldata:db=pubmed:querykey=1;id=searchdetails;id=recentactivity',
    'load': 'yes'
    }

req = requests.post(posturl,data=FormData,headers={"User-Agent":"Mozilla/5.0"})
soup = BeautifulSoup(req.text,"lxml")
for items in soup.select("div.rslt p.title a"):
    print(items.get("href"))

顺便说一句，当我点击下一页链接时，浏览器中的 url 变为“https://www.ncbi.nlm.nih.gov/pubmed”。

我不想寻求与任何浏览器模拟器相关的任何解决方案。提前致谢。

最佳答案

内容是高度动态的，因此最好使用 selenium 或类似的客户端，但我意识到这不切实际，因为结果数量如此之大。因此，我们必须分析浏览器提交的 HTTP 请求，并用 requests 模拟它们。

下一页的内容通过POST请求加载到/pubmed，post数据是EntrezForm表单的输入字段。表单提交由 js 控制(点击“下一页”按钮时触发)，并通过 .submit() 方法执行。

经过一些检查，我发现了一些有趣的字段:

EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_Pager.CurrPage 和
EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_Pager.cPage 指示当前页和下一页。
EntrezSystem2.PEntrez.DbConnector.Cmd 似乎执行数据库查询。如果我们不提交该字段，结果将不会改变。
EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_DisplayBar.PageSize 和EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_DisplayBar.PrevPageSize 表示每页的结果数。

根据这些信息，我可以使用下面的脚本获取多个页面。

import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup

geturl = "https://www.ncbi.nlm.nih.gov/pubmed/?term=%222015%22%5BDate+-+Publication%5D+%3A+%223000%22%5BDate+-+Publication%5D"
posturl = "https://www.ncbi.nlm.nih.gov/pubmed/"

s = requests.session()
s.headers["User-Agent"] = "Mozilla/5.0"

soup = BeautifulSoup(s.get(geturl).text,"lxml")
inputs = {i['name']: i.get('value', '') for i in soup.select('form#EntrezForm input[name]')}

results = int(inputs['EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_ResultsController.ResultCount'])
items_per_page = 100
pages = results // items_per_page + int(bool(results % items_per_page))

inputs['EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_DisplayBar.PageSize'] = items_per_page
inputs['EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_DisplayBar.PrevPageSize'] = items_per_page
inputs['EntrezSystem2.PEntrez.DbConnector.Cmd'] = 'PageChanged'

links = []

for page in range(pages):
    inputs['EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_Pager.CurrPage'] = page + 1
    inputs['EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_Pager.cPage'] = page

    res = s.post(posturl, inputs)
    soup = BeautifulSoup(res.text, "lxml")

    items = [i['href'] for i in soup.select("div.rslt p.title a[href]")]
    links += items

    for i in items:
        print(i)

我请求每页 100 个项目，因为更高的数字似乎会“破坏”服务器，但您应该能够通过一些错误检查来调整该数字。

最后，链接按降序显示(/29960282，/29960281，...)，所以我认为我们可以在不执行任何 POST 的情况下计算链接要求:

geturl = "https://www.ncbi.nlm.nih.gov/pubmed/?term=%222015%22%5BDate+-+Publication%5D+%3A+%223000%22%5BDate+-+Publication%5D"
posturl = "https://www.ncbi.nlm.nih.gov/pubmed/"

s = requests.session()
s.headers["User-Agent"] = "Mozilla/5.0"
soup = BeautifulSoup(s.get(geturl).text,"lxml")

results = int(soup.select_one('[name$=ResultCount]')['value'])
first_link = int(soup.select_one("div.rslt p.title a[href]")['href'].split('/')[-1])
last_link = first_link - results

links = [posturl + str(i) for i in range(first_link, last_link, -1)]

但不幸的是，结果并不准确。

关于python - 无法使用发布请求进入下一页，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51100224/

文章推荐： c# - 在 Entity Framework 核心中执行业务规则

c++ - 为什么我可以 mov 进入 eax，进入 ax，但不能进入 al，甚至可能进入 ah？
如果我 mov, eax 12345 和之后的 mov var, eax (假设 var 是一个 32 位的 int 等..等等)并输出 var 稍后它会正确输出。与 ax 相同。 mov ax,
php - if 进入 for 时的奇怪行为
我有这个代码: for($nrt=0; $nrt"; if($sidesIndexes[$nrt]==$nrt) { echo "am I in??? ".$sidesInde
进入 channel 无限循环不阻塞
我正在阅读The Go Programming Language的8.5章，并陷入一些代码。下面的代码列表。 func main() { naturals := make(chan int)
MYSQL 进入 OUTFILE
我写了一个 MySQL 查询用于将数据导出到文本文件。查询运行成功，但结果与我的预期不符。我想在列之间没有间距的结果。 select sample_export_record1_2013.
excel - 进入 ThisWorkbook 代码区
在普通的 Excel 窗口中，我可以打开 VBE 并通过触摸键序列插入一个新模块:ALT+F11、ALTim 全部不使用鼠标。有没有办法打开 VBE 并导航到本工作手册不使用鼠标的代码区域？最佳
reactjs - Axios 进入 .then 未按预期工作
我正在使用 axios 发出 http 请求。在 .then() 内部，我正在使用另一个 axios 调用。最后，我有第三个 then()，它应该在第二个 then 之后运行，但实际上并没有这样做。
iphone - MPMoviePlayerController 进入 View
我需要在 cocos2d 项目中播放视频..我的问题是:如何将 MPMoviePlayerController 放入我的 View 中，如下所示:？ UIView *theView = [[CCDir
javascript - Angular 进入 Controller
我正在学习 Angular。以下代码有效: .controller('abc', function ($scope, $http) { $http.get("/Handlers/Authenticat
c# - ViewModel 进入 View
目前我正在使用 WPF 学习 C#。我的主要方法是尽我所能使用 MVVM 模式，但现在我有点困惑。在我所有 View 的应用程序中，我有一个 View 模型: private DruckviewVi
javascript - IF 进入 Google 脚本中关于提取电子邮件的循环
关于将 G 邮件提取到 Google 电子表格，我该如何添加 IF 以按主题驳回特定电子邮件？例如:电子邮件回复(主题中带有“RE:”)。我不希望这些电子邮件出现在我的电子表格中。我尝试过使用 LO
javascript - 进入 Spotify 阵列
我正在尝试使用 Spotify API 并进入数组。 const App = () => { const [isLoading, setIsLoading] = useState(true);
symfony - 如何使用条件 if 进入 assetic
我有一个 html 模板，并且有一个条件为 --> 的代码 --> window.jQuery || document.write(""+"");
java - 进入 UI 线程
我正在开发一个 Android 应用程序，该应用程序会暴力破解从 int 创建的 MD5 和。暴力破解部分工作正常。 (我可以sysout最终值并且它是正确的。) 我在将输出值发送到警报对话框时遇到
jquery - D3 进入/退出路径圆组
我正在创建一个界面，用户可以通过该界面生成多系列折线图，并控制绘制哪些数据集。要绘制哪些数据集由复选框控制。页面加载时，默认数据集以图表形式呈现，并且 $('input:checkbox.data-
javascript - 进入/退出未正确清理强制布局中弹出的节点/链接
我尝试将有向无环图绘制为力布局。但是我注意到，尽管为每个组元素灌输了进入/退出条件，弹出的节点/链接并没有从 DOM 中删除它们自己。相反，弹出的节点/链接在力布局中卡住；这意味着没有调用进入/退
c# - 调试问题 - 进入 - C#
这里是新手。我不知道它是怎么发生的，但我正在处理一个程序，当我去调试并进入时，黄色箭头走到了我代码的最后并跳过了整个 block 。有快速解决方法吗？最佳答案按 F11，或单击工具栏上的“Step
android - 进入 ListNavigation 单击操作栏中的
我的 Action 栏 sherlock 中有一个列表。我想在用户点击该列表时得到。我不想知道用户何时点击某个项目，我已经知道 (onNavigationItemSelected)。在我的 onCr
MySQL 日期 -> 进入 EuroDate
** 你好 **我如何从 ci 中的 mysql 日期获取 eurodate 来工作......无法弄清楚 - 请帮忙想要获取日期 YY-mm- dd -> dd-mm-yy提前致谢最佳答案 $t
bash - cd 进入 while 循环中的目录不起作用
我有以下脚本: #!/bin/bash ls -1 | while read d do [[ -f "$d" ]] && continue echo $d cd $d done
c# - 进入/退出方法时如何增加/减少缩进？
TL;DR - 跳转到最后一段背景我正在执行一些数据驱动测试，并将日志文件用作测试输出之一。它的工作原理是这样的- 读取文件夹中的第一个文件处理第一行并转换为测试运行测试执行验证 1 ...

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 无法使用发布请求进入下一页