gpt4 book ai didi

python - 从 Google Scholar 抓取作者 h-index、i10-index 和总引用次数

转载 作者:行者123 更新时间:2023-12-05 03:10:02 32 4
gpt4 key购买 nike

我正在开展一个从 Google 学术搜索中抓取数据的项目。我想抓取作者的 h 指数、总引用次数和 i-10 指数(全部)。例如来自 Louisa Gilbert我想刮:

h-index = 36
i10-index = 74
citations = 4383

我是这样写的:

from bs4 import BeautifulSoup
import urllib.request
url="https://scholar.google.ca/citations?user=OdQKi7wAAAAJ&hl=en"
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')

但我不确定如何继续。 (我知道有一些可用的库,但没有一个允许您抓取 h-index 和 i10-index。)

最佳答案

你快到了。您需要找到包含要提取的数据的 HTML 元素。在这种特殊情况下,索引包含在标签 <td class="gsc_rsb_std"> 中.您需要从 Soup 元素中获取这些标签,然后使用方法 string从标签中恢复文本:

indexes = soup.find_all("td", "gsc_rsb_std")
h_index = indexes[2].string
i10_index = indexes[4].string
citations = indexes[0].string

关于python - 从 Google Scholar 抓取作者 h-index、i10-index 和总引用次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41323018/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com