gpt4 book ai didi

python - 获取首次发表的年份 Google Scholar

转载 作者:行者123 更新时间:2023-12-01 03:26:38 26 4
gpt4 key购买 nike

我正在使用 bs4 和 urllib 从 Google Scholar 抓取数据。我正在努力获得一篇文章发表的第一年。例如,来自this page我试图获取 1996 年。这可以从条形图中读取,但只能在单击条形图之后读取。我编写了以下代码,但它打印出单击条形图之前可见的年份。

from bs4 import BeautifulSoup
import urllib.request

url = 'https://scholar.google.com/citations?user=VGoSakQAAAAJ'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
year = soup.find('span', {"class": "gsc_g_t"})
print (year)

最佳答案

图表信息是根据不同的请求,this one 。在那里你可以通过以下 xpath 获取你想要的信息:

'//span[@class="gsc_g_t"][1]/text()'

或在汤中:

soup.find('span', {"class": "gsc_g_t"}).text

关于python - 获取首次发表的年份 Google Scholar,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41348670/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com