gpt4 book ai didi

python - 尝试使用 Python 从一系列 URL 下载数据(文本)

转载 作者:太空宇宙 更新时间:2023-11-03 15:45:24 25 4
gpt4 key购买 nike

很抱歉这个问题可能很无聊。我正在尝试使用 Python 一次性从一系列 URL 下载文本。它们遵循非常简单的结构:

"http://example.com/01000/01000/01000.htm "; “http://example.com/01000/01001/01001.htm”;

依此类推,直到01099。

获取文本后,我需要使用 nltk 工具包对其进行分析。我尝试在 Windows 上使用 wget,但在命令行中不起作用。我想知道是否有一种方法,类似于 URL 的 glob 模块,可以一次性下载此范围内的数据。

(该范围内还有一些空白网址。)

非常感谢您的帮助。

最佳答案

使用字符串操作获得 URL 后(看到您知道 URL 的结构),您可以使用 Requests module

示例;

import requests

base_url = "http://example.com/01000/01001/0"
for i in range(1000, 1100):
target_url = base_url + str(i) + ".htm"
r = requests.get(target_url)

print(r.text) # python 3 only

关于python - 尝试使用 Python 从一系列 URL 下载数据(文本),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41796847/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com