gpt4 book ai didi

api - citeseerx 搜索 API

转载 作者:行者123 更新时间:2023-12-04 12:22:41 39 4
gpt4 key购买 nike

有没有办法访问CiteSeerX以编程方式(例如按作者和/或标题搜索?)令人惊讶的是我找不到任何相关内容;肯定其他人也在尝试获取学术文章元数据而不求助于抓取吗?

编辑:注意 CiteSeerX supports OAI PMH,但这似乎是一个面向数字图书馆保持相互更新(“内容传播”)的 API,并且不专门支持搜索。此外,该页面上的 citeseer 信息非常稀少,甚至说“目前,OAI 存在困难”。

another关于 CiteSeerX API 的 SO 问题(虽然不是专门搜索); 2 个答案不能解决问题(一个谈论 Mendeley,另一个软件,另一个说 OAI-PMH 实现可以免费提供对最小规范的扩展)。

或者,有人可以建议一种以编程方式从作者/标题获取引文的好方法吗?

最佳答案

正如其中一位评论者所建议的那样,我首先尝试了 jabref:

jabref -n -f "citeseer:title:(lessons from) author:(Brewer)"



然而,jabref 似乎没有意识到查询字符串需要包含冒号,因此会引发错误。

对于搜索结果,我最终使用 Python 的 BeautifulSoup 抓取了 CiteSeerX 结果:
url = "http://citeseerx.ist.psu.edu/search?q="
q = "title%3A%28{1}%29+author%3%28{0}%29&submit=Search&sort=cite&t=doc"
url += q.format (author_last, title.replace (" ", "+"))
soup = BeautifulSoup (urllib2.urlopen (url).read ())
result = soup.html.body ("div", id = "result_list") [0].div
title = result.h3.a.string.strip ()
authors = result ("span", "authors") [0].string
authors = authors [len ("by "):].strip ()
date = result ("span", "pubyear") [0].string.strip (", ")

可以从结果中获取文档 ID(摘要链接 URL 中具有误导性的“doi=...”部分),然后将其传递给 CiteSeerX OAI 引擎以获取都柏林核心 XML(例如 http://citeseerx.ist.psu.edu/oai2?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:CiteSeerX.psu:10.1.1.42.2177) ;然而,XML 最终包含多个 dc:date 元素,这使得它不如刮取输出有用。

太糟糕了 CiteSeerX 使人们不顾所有开放文件/开放访问的言论而诉诸于抓取。

关于api - citeseerx 搜索 API,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14085383/

39 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com