gpt4 book ai didi

full-text-search - 给定DOI或标题,从科学文献中提取摘要/全文

转载 作者:行者123 更新时间:2023-12-03 23:38:42 29 4
gpt4 key购买 nike

有很多工具可以从PDF文件中提取文本[1-4]。但是,大多数科学论文的问题在于,主要由于需要付费才能直接获取PDF。除了bibtex信息之外,还有一些工具可以轻松访问论文的信息,例如元数据或bibtex [5-6]。我想要的就像向前迈出了一步,而不仅仅是bibtex /元数据:

假设无法直接访问出版物的PDF文件,那么根据论文的DOI或标题,是否有任何方法至少可以获取科学论文的摘要?通过搜索,我发现出于类似目的已经进行了一些尝试[7]。有谁知道一个网站/工具可以帮助我获取/提取科学论文的摘要或全文?如果没有这样的工具,您能给我一些解决该问题后的建议吗?

谢谢

[1] http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers
[2] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf
[3] http://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf?lq=1
[4] http://stackoverflow.com/questions/14291856/extracting-article-contents-from-pdf-magazines?rq=1
[5] https://stackoverflow.com/questions/10507049/get-metadata-from-doi
[6] https://github.com/venthur/gscholar
[7] https://stackoverflow.com/questions/15768499/extract-text-from-google-scholar

最佳答案

您可以查看交叉引用文本和数据挖掘(tdm)服务(http://tdmsupport.crossref.org/)。该组织免费提供RESTful API。有超过4000家发布商为该tdm服务做出了贡献。
您可以从下面的链接中找到一些示例:

https://github.com/CrossRef/rest-api-doc/blob/master/rest_api_tour.md

但是举一个非常简单的例子:

如果您转到链接

http://api.crossref.org/works/10.1080/10260220290013453

您会看到,除了一些基本的元数据外,还有另外两个元数据,即许可证和链接,其中前一个给出了提供本出版物的许可类型,而后一个给出了全文的URL。对于我们的示例,您将在许可证元数据上看到该许可证是creativecommons(CC),这意味着可以将其免费用于tdm。通过在crossref中搜索具有CC许可证的出版物,您可以访问数十万份带有全文的出版物。从我的最新研究中,我可以说印度教出版是最友好的出版商。甚至他们提供了超过10万份带有wit CC许可的出版物。最后一件事是,全文可能以xml或pdf格式提供。对于那些xml格式来说,它具有高度结构化,因此易于提取数据。

总结起来,您可以通过使用crossref tdm服务的API并简单地编写GET请求来自动访问许多全文。如果您还有其他问题,请随时提出。

干杯。

关于full-text-search - 给定DOI或标题,从科学文献中提取摘要/全文,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30904755/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com