gpt4 book ai didi

php - Tor 网络爬虫

转载 作者:可可西里 更新时间:2023-10-31 22:42:15 25 4
gpt4 key购买 nike

好的,这就是我需要的。我有一个基于 PHP 的网络爬虫。它可以在这里访问: http://rz7ocnxxu7ka6ncv.onion/现在,我的问题是我的蜘蛛实际上需要在 SOCKS 端口 9050 上抓取页面。问题是,我必须通过 Tor 建立连接,以便它可以解析 .onion 域,这就是我正在索引的内容. (仅以 .onion 结尾。)我使用 php crawl.php 从命令行调用此脚本,并添加适当的参数来抓取页面。这是我的想法:有什么办法可以强制它使用 Tor?或者我可以强制我的整个机器通过 Tor 隧道,如何?(比如强制所有流量通过 127.0.0.1:9050)也许如果我设置全局代理设置,php 会遵守它们吗?

如果我的任何解决方案有效,我会怎么做? (请逐步说明,我是菜鸟。)

我只想创建自己的 Tor 搜索引擎。 (不要推荐我的 p2p 搜索引擎——这不是我想要的——我知道它们存在,我做了我的功课。)如果您有兴趣查看,这是爬虫源:或许有好心人可以修改为所有爬取请求都使用127.0.0.1:9050? http://pastebin.com/kscGJCc5

最佳答案

cURL 还支持 SOCKS 连接;试试这个:

<?php

$ch = curl_init('http://google.com');
curl_setopt($ch, CURLOPT_HEADER, 1);
curl_setopt($ch, CURLOPT_HTTPPROXYTUNNEL, 1);

// SOCKS5
curl_setopt($ch, CURLOPT_PROXY, 'localhost:9050');
curl_setopt($ch, CURLOPT_PROXYTYPE, CURLPROXY_SOCKS5);

curl_exec($ch);
curl_close($ch);

关于php - Tor 网络爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9237477/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com