gpt4 book ai didi

python - 抓取具有 .onion 域的网站的最简单方法?

转载 作者:太空宇宙 更新时间:2023-11-03 18:52:18 26 4
gpt4 key购买 nike

我正在尝试构建一个可以抓取 .onion 域上托管的各种页面的网站。这意味着它并不像调用 requests.get("http://XXX.onion") 那么简单,因为 .onion 只能通过 TOR 连接来使用。

我可以使用像 onion.to 这样的重定向器,但这需要点击,这在我抓取时不起作用。

我不在乎匿名性,我只想要数据。

最佳答案

Requests 支持 HTTP 代理,但不支持 SOCKS 代理,而这正是 Tor 为您提供的。

您可以获取请求的修补版本:How to make python Requests work via socks proxy

或者安装 Polipo 并将其用作另一个代理,将 Tor 的 SOCKS5 代理“转换”为 HTTP/HTTPS 代理。这是我的配置文件:

proxyName = "localhost"
proxyAddress = "127.0.0.1"
proxyPort = 8118

allowedClients = 127.0.0.1
allowedPorts = 1-65535

cacheIsShared = false
chunkHighMark = 67108864

socksParentProxy = "localhost:9050"
socksProxyType = socks5


diskCacheRoot = ""
localDocumentRoot = ""

disableLocalInterface = true
disableConfiguration = true
disableVia = true

dnsUseGethostbyname = yes

maxConnectionAge = 5m
maxConnectionRequests = 120

serverMaxSlots = 8
serverSlots = 2

tunnelAllowedPorts = 1-65535

现在,您可以仅使用带有请求的代理:

proxies = {
'http': 'localhost:8118',
'https': 'localhost:8118'
}

requests.get('http://something.onion/', proxies=proxies)

关于python - 抓取具有 .onion 域的网站的最简单方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18050416/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com