gpt4 book ai didi

Python - 下载项目列表

转载 作者:太空宇宙 更新时间:2023-11-04 10:15:01 25 4
gpt4 key购买 nike

我想使用 Python notebook 从服务器下载多个 PDF 文件。所有 URL 之间的唯一区别是它们在一个值上有所不同。 URL 方案如下所示:

http://file.server.com/content.asp?H=cat1&NR=123456&T=abc

唯一改变的值是 NR=xxxxxx

我有一个包含所有不同 NR 的 *.csv 文件

ID NR
1 123456
2 123457
3 123458
...

关于代码,我找到了 this thread here 但不知道如何使用值通过 csv/dataframe 实现迭代。

import urllib2

<< 最好有一个函数告诉脚本在下一次下载前每 5 秒等待一次 >>

def main():
download_file("http://file.server.com/content.asp?H=cat1&NR=<<VARIABLE FROM CSV>>&T=abc")

def download_file(download_url):
response = urllib2.urlopen(download_url)
file = open("<<Store with ID name.pdf>>", 'w')
file.write(response.read())
file.close()
print("Completed")

if __name__ == "__main__":
main()

谢谢!

最佳答案

您可以添加一个替换了变量值的 url 列:

In [254]:
url = r'http://file.server.com/content.asp?H=cat1&NR=123456&T=abc'
url

Out[254]:
'http://file.server.com/content.asp?H=cat1&NR=123456&T=abc'

In [256]:
df['url'] = url.split(r'&NR=')[0] + r'&NR=' + df['NR'].astype(str) + r'&T' + url.split(r'&T')[1]
df

Out[256]:
ID NR url
0 1 123456 http://file.server.com/content.asp?H=cat1&NR=1...
1 2 123457 http://file.server.com/content.asp?H=cat1&NR=1...
2 3 123458 http://file.server.com/content.asp?H=cat1&NR=1...

In [258]:
df['url'].iloc[0]

Out[258]:
'http://file.server.com/content.asp?H=cat1&NR=123456&T=abc'

然后您可以在传入函数的列上调用 apply:

df['url'].apply(download_file)

关于Python - 下载项目列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35887218/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com