- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我编写了以下代码来从 Google Scholar security page. 中抓取数据.但是,每当我运行它时,我都会收到此错误:
Traceback (most recent call last):
File "/Users/.../Documents/GS_Tag_Scraper/scrape-modified.py", line 53, in <module>
getProfileFromTag(each)
File "/Users/.../Documents/GS_Tag_Scraper/scrape-modified.py", line 32, in getProfileFromTag
page = urllib.request.urlopen(url)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 163, in urlopen
return opener.open(url, data, timeout)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 472, in open
response = meth(req, response)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 582, in http_response
'http', request, response, code, msg, hdrs)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 504, in error
result = self._call_chain(*args)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 444, in _call_chain
result = func(*args)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 696, in http_error_302
return self.parent.open(new, timeout=req.timeout)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 472, in open
response = meth(req, response)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 582, in http_response
'http', request, response, code, msg, hdrs)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 510, in error
return self._call_chain(*args)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 444, in _call_chain
result = func(*args)
File "/Users/.../anaconda/lib/python3.5/urllib/request.py", line 590, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 503: Service Unavailable
我认为这是因为 GS 阻止了我的请求。我怎样才能避免这种情况?
代码是:
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import urllib.request
import string
import csv
import time
#Declares array's to store data
name = []
urlList =[]
#Opens and writer header of CSV file
outputFile = open('sample.csv', 'w', newline='')
outputWriter = csv.writer(outputFile)
outputWriter.writerow(['Name', 'URL', 'Total Citations', 'h-index', 'i10-index'])
def getStat (url):
#Given an authors URL it retunrs an array of stats.
url = 'https://scholar.google.pl' + url
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
buttons = soup.findAll("td", { "class" : "gsc_rsb_std" })
list=[]
return (list)
def getProfileFromTag(tag):
url = "http://scholar.google.pl/citations?view_op=search_authors&hl=pl&mauthors=label:" + tag
while True:
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
mydivs = BeautifulSoup(urllib.request.urlopen(url), 'lxml').findAll("h3", { "class" : "gsc_1usr_name"})
for each in mydivs:
for anchor in each.find_all('a'):
name.append(anchor.text)
urlList.append(anchor['href'])
time.sleep(0.001)
buttons = soup.findAll("button", {"aria-label": "Następna"})
if not buttons:
break
on_click = buttons[0].get('onclick')
url = 'http://scholar.google.pl' + on_click[17:-1]
url = url.encode('utf-8').decode('unicode_escape')
for each in name:
list = getStat(urlList[i])
outputWriter.writerow([each, urlList[i], list[0], list[2], list[4]])
tags = ['security']
for each in tags:
getProfileFromTag(each)
最佳答案
改为使用 requests
以及适当的请求 header 。
import requests
url = 'https://scholar.google.pl/citations?view_op=search_authors&mauthors=label:security'
request_headers = {
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'en-US,en;q=0.8',
'upgrade-insecure-requests': '1',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
with requests.Session() as s:
r = s.get(url, headers=request_headers)
得到的结果:
Adrian Perrig /citations?user=n-Oret4AAAAJ&hl=pl
Vern Paxson /citations?user=HvwPRJ0AAAAJ&hl=pl
Frans Kaashoek /citations?user=YCoLskoAAAAJ&hl=pl
Mihir Bellare /citations?user=2pW1g5IAAAAJ&hl=pl
Xuemin Shen /citations?user=Bjl3GwoAAAAJ&hl=pl
Helen J. Wang /citations?user=qhu-DxwAAAAJ&hl=pl
Sushil Jajodia /citations?user=lOZ1vHIAAAAJ&hl=pl
Martin Abadi /citations?user=vWTI60AAAAAJ&hl=pl
Jean-Pierre Hubaux /citations?user=W7YBLlEAAAAJ&hl=pl
Ross Anderson /citations?user=WgyDcoUAAAAJ&hl=pl
使用这个:
users = soup.findAll('h3', {'class': 'gsc_oai_name'})
for user in users:
name = user.a.text.strip()
link = user.a['href']
print(name, '\t', link)
您可以通过研究 Chrome 开发者工具的网络选项卡找到浏览器发送的 header 。
关于python - 抓取 Google Scholar 时防止 503 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41331881/
我有一个应用程序,其中许多对象都扩展了一个抽象类,该抽象类定义了诸如 create() edit() retrieve() 和 delete()。由于每个子类对这些函数使用相同的逻辑,抽象类定义了默认
我正在使用$anchorScroll滚动到页面顶部,其中 html 元素具有 ID #brand。 AngularJS 代码: $location.hash(
我想停用我的应用程序中的右键单击,该右键单击提供了在桌面上安装应用程序的选项。我该如何做这样的事情? 最佳答案 右键单击 Visual Studio 中的项目并选择属性。那里有一个复选框“启用浏览器运
我使用 jquery 定位 div,在我的 CSS 中我有一个 div.right-sm:hover{background-color: blue} 我想使用 jquery 停止悬停: $(this
所以,我正在尝试复制 html5“占位符”属性功能。 我目前坚持的一件事是,在获得元素焦点时,插入符号立即出现在输入的开头。 就目前情况而言,插入符号出现在用户单击的位置,然后当我使用 jQuery
当表单填写并发送时,如果您刷新页面,它表示表单将再次发送。 (再次提交表格)。 防止这种情况发生的好方法是什么?或者终止这个 session ? 这方面有什么指导吗? 谢谢 最佳答案 处理完POST信
我想阻止 @ 被输入到 input 中。但它不起作用,知道为什么吗? $(function() { $(document).on('keyup', '[placeholder="x"]', fun
我正在使用 PHP 创建一个应用程序并涉及 MySQL。如果在请求过程中发生错误,我将如何“将查询分组在一起”,检查它是否会成功,然后对真实表进行实际影响。如果对表的实际更新失败,则恢复到更新之前的状
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Best Java obfuscator ? 对于我的示例,我知道 eclipse 提供了一个反编译插件。而
这是一个演示我的问题的 fiddle :JSFiddle 我正在制作自定义下拉菜单(实际上我使用的是 icomoon 图标而不是 V)...它看起来不错,但是父元素的 ::after 是阻止选择:(
每当我编写需要大量条件的代码时,我都会这样做: if foo: if bar: if foobar: if barfoo: if foobarfoo:
我不确定术语是否正确,您可以使用哪些代码实践来使某人难以修改二进制文件/程序集以绕过检查: 例如在源代码中。 bool verificationResult = verify(); if (verif
我正在寻找一种简单的方法来检查多个零件表,以确定给定零件号在添加到给定表之前是否已经存在。 我目前想到的最好的想法是一个辅助表,它简单地将所有表中的每个 PN 列在一个列中,并带有一个唯一的键;但是我
这个问题在这里已经有了答案: jquery stop child triggering parent event (7 个答案) 关闭 8 年前。 我不确定这是否真的冒泡,我会解释。 我有这个:
我有一个 Spring MVC web 应用程序(不确定该信息是否重要,但它可能是)使用 ModelAndView 将字符串值传递给 JSP 文件。 字符串值的形式是: d@.
我在这里尝试使用表单 key 方法进行 csrf 保护 http://net.tutsplus.com/tutorials/php/secure-your-forms-with-form-keys/
htmlentities 是防止 PHP 中的 XSS 的最佳解决方案吗?我还想允许像 b、i、a 和 img 这样的简单标签。实现这一点的最佳解决方案是什么?我确实考虑过 bbcode,但发现如果没
我有一个非常基本的 JAX-RS 服务(下面的 BookService 类),它允许创建 Book 类型的实体(也在下面)。 POST负载 { "acquisitionDate": 14188
我正在使用 Polymer 1.5,我确实需要“this”变量不要映射到外部。我知道 typescript 会为某些人做这件事 valid reasons . declare var Polymer:
这个问题在这里已经有了答案: Class-level read-only properties in Python (3 个答案) 关闭 6 年前。 有没有一种方法可以通过重写实例变量的 __set
我是一名优秀的程序员,十分优秀!