gpt4 book ai didi

python - 如何在 Python 中下载网页上的 PDF 文件

转载 作者:太空宇宙 更新时间:2023-11-04 03:18:47 27 4
gpt4 key购买 nike

我正在尝试使用 Python 在下面的链接中下载 PDF 文件。

Link

我尝试下载它,但无法打开保存的文件。
我的 PDF 查看器显示“源格式不是 PDF。”
谁能告诉我哪里出了问题?

import urllib2

def main():
url = "https://www.osapublishing.org/view_article.cfm?gotourl=https%3A%2F%2Fwww%2Eosapublishing%2Eorg%2FDirectPDFAccess%2F42C574A0-ABB6-FD11-777A24C1C4C5ADEF_274099%2Foe-21-22-27371%2Epdf%3Fda%3D1%26id%3D274099%26seq%3D0%26mobile%3Dno&org="
download_file("example", url)

def download_file(file_name, download_url):
response = urllib2.urlopen(download_url)
file = open(file_name + ".pdf", 'wb')
file.write(response.read())
file.close()
print("Completed")

if __name__ == "__main__":
main()

最佳答案

您的 URL 不是指向 PDF 的链接,而是指向包含 PDF 的 HTML 框架的链接。请改用直接 URL:

url = "http://www.osapublishing.org/DirectPDFAccess/42C574A0-ABB6-FD11-777A24C1C4C5ADEF_274099/oe-21-22-27371.pdf?da=1&id=274099&seq=0&mobile=no"

您可以通过查看原始链接的 HTML 源来获取 PDF 文件的源。

关于python - 如何在 Python 中下载网页上的 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35354458/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com