gpt4 book ai didi

python - 如何使用python从本地网站抓取数据

转载 作者:行者123 更新时间:2023-12-01 00:42:17 26 4
gpt4 key购买 nike

我需要提示如何从网站获取数据。我对网络抓取还很陌生。特别的事情是我无法访问该网站,因为它在另一个网络上本地运行。为了开发,我只有 html 文件形式的网站。知道我的问题是我的以下代码出现错误。我认为问题很简单,但目前我还没有想法。

import requests
import urllib.request
import time
from bs4 import BeautifulSoup

url = 'file:///tmp/mozilla/LiveData.html' # file is locally so far
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

我收到以下错误:

NewConnectionError: <urllib3.connection.HTTPConnection object at 0x7fc151db7550>: Failed to establish a new connection: [Errno -2] Name or service not known

当它是本地网站而不是“真正的”网站时,它可能不起作用。感谢您的帮助!

最佳答案

您不能在本地文件上使用.get方法。先读取文件,然后将其传递给bs4。
你可以用这样的东西来实现类似的事情。示例:

import requests
import urllib.request
import time
from bs4 import BeautifulSoup

# url = 'file:///tmp/mozilla/LiveData.html' # file is locally so far
with open('/tmp/mozilla/LiveData.html', 'r') as f:
response = f.read()
soup = BeautifulSoup(response.text, "html.parser")

关于python - 如何使用python从本地网站抓取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57259985/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com