python - 使用 tor 和 python 抓取谷歌学术搜索-6ren

python - 使用 tor 和 python 抓取谷歌学术搜索

转载作者：太空狗更新时间：2023-10-29 19:29:44

32

4

我正在从事一个分析期刊文章被引用方式的项目。我有一个很大的期刊文章名称文件。我打算将它们传递给 Google Scholar，看看每个都有多少引用。

这是我遵循的策略:

使用 http://www.icir.org/christian/scholar.html 中的“scholar.py” .这是一个预先编写的 python 脚本，用于搜索 google scholar 并以 CSV 格式返回第一次命中的信息(包括引用次数)
Google scholar 在搜索一定次数后屏蔽你(我有大约 3000 篇文章标题要查询)。我发现大多数人使用 Tor(How to make urllib2 requests through Tor in Python? 和 Prevent Custom Web Crawler from being blocked)来解决这个问题。 Tor 是一项每隔几分钟就会为您提供一个随机 IP 地址的服务。

我已经成功设置了 scholar.py 和 tor，并且可以正常工作。我对 python 或库 urllib2 不是很熟悉，想知道需要对 scholar.py 进行哪些修改才能通过 Tor 路由查询。

如果存在的话，我也乐于接受关于一种更简单(并且可能有很大不同)的大规模谷歌学者查询方法的建议。

提前致谢

最佳答案

对我来说，使用 TOR 的最佳方式是 setting up a local proxy like polipo .我喜欢克隆 repo 并在本地编译:

git clone https://github.com/jech/polipo.git
cd polipo
make all
make install

但是你可以使用你的包管理器(brew install polipo 在 mac 上，apt install polipo 在 Ubuntu 上)。然后编写一个简单的配置文件:

echo socksParentProxy=localhost:9050 > ~/.polipo
echo diskCacheRoot='""' >> ~/.polipo
echo disableLocalInterface=true >> ~/.polipo

然后运行它:

polipo

参见 urllib docs on how to use a proxy .与许多 Unix 应用程序一样，urllib 将遵循环境变量 http_proxy:

export http_proxy="http://localhost:8123"
export https_proxy="http://localhost:8123"

我喜欢使用 requests 库，这是一个更好的 urllib 包装器。如果您还没有:

pip install requests

如果 urllib 使用的是 Tor，下面的一行代码应该打印 True:

python -c "import requests; print('Congratulations' in requests.get('http://check.torproject.org/').text)"

最后一点，请注意:Tor 网络并不是在 Internet 上做傻事的免费通行证，因为即使使用它，您也不应该假设您是完全匿名的。

关于python - 使用 tor 和 python 抓取谷歌学术搜索，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11443600/

32

4

0

文章推荐： angular - 拖动以在页面周围移动组件？

tor - 如何跟踪路由 Tor 代理并查看 Tor 网络中的其他路由器？
我想知道当我连接到 Tor 网络时将我的数据包发送到哪里。我想在 Tor 网络中看到其他路由器，如下所示: $ traceroute google.com 3 ........... 4 *
tor - Tor 上的配置泛滥
我知道我们已经讨论过了，但我在这里找到的问答和谷歌搜索不适合我的问题。我读到我不应该这样做有几个原因(看看替代品，一个负担得起的种子箱可能是最好的选择)。尽管如此，我仍在努力让它工作，但目前我做不到
tor - 如何更改 TOR 链中的默认节点数？
默认 TOR在链中使用 3 个节点(大约)，但它的工作速度非常缓慢。我想使用一个，所以连接到某个服务器，那个已经是导出节点。我知道这会影响我的匿名性，但我认为我可以忍受(特别是如果这样做会更快的话)
tor - 是否可以阻止 Tor 用户？
是否可以阻止 Tor 用户？ (https://www.torproject.org/) 由于我运行的网站的性质，我应该尽我所能停止多个帐户并阻止某些位置。 Tor 比代理更糟糕 - 完全是一场噩梦.
tor - 如何以编程方式更改 Tor 导出节点以获得新 IP？
我的计算机上运行着 Tor，我需要每五分钟更改一次 Tor 导出节点。例如，如果我开始通过某个导出节点使用 Tor，那么我希望 Tor 在 5 分钟内更改为具有不同 IP 地址的导出节点。我怎样才
Tor.exe是什么进程？有什么功能？ Tor.exe程序文件及功能介绍
来历及作用 Tor.exe进程程序文件通常是Tor/Tor Project或被认为是Privoxy或Polipo、Hide My IP Address、Tor 0.2.0.2-alpha类似的The
python - Tor、Stem 和套接字 - 使用 TOR 改变身份
我正在尝试通过 python 运行 Tor。我的目标是能够在我选择的时间不时切换导出或以其他方式更改我的 IP。我已经学习了几个教程并遇到了几个不同的错误。此代码打印我的 IP 地址 import
tor - 如何在 TOR (windows) 上指定 IP 国家/地区？
我可以在 Linux 上使用 torrc 文件轻松更改该设置，但在 Windows 版 Tor 浏览器上找不到该选项。看起来可以通过“vidalia”完成:但是如何访问它？我在 TOR 浏览器上找不
python - tor 通过 python - 连接正常，但没有出现在 tor 上
我正在使用连接到 tor 网络的 stem 示例，这应该将客户端连接到 tor 网络，它似乎正在这样做但是当我检查 ip 地址时它是不正确的而不是 tor ip，任何关于为什么会这样，更重要的是我该如
Java Tor 库 : How to setup Orchid Tor Lib with Java?
我正在尝试用 Java 代码实现 Orchid Tor 库；不幸的是，由于缺乏文档，我无法让它工作，这就是我所做的: ...................... private final stat
linux - 如何使用 tor 浏览器包从 vidalia 面板启动 tor 浏览器？
我已经在 linux 系统上安装了 tor 浏览器包。我从命令行启动它 :~$ ./.tor/tor-browser_en-US/start-tor-browser 这将首先启动 vidalia，然后
c++ - 有 c-tor 和 d-tor 会产生段错误，而没有它们则不会出现段错误
struct Tnode { Tnode *left; Tnode *right; int content; Tnode (int item = 0) { this->content
windows - Tor 控制台输出问题 : running tor --hash-password gives no result
我正在关注博文 here . 我使用的是 Windows 机器，所以我无法按照确切的步骤操作。这就是我所做的: 安装了 Tor Browser for Windows 已安装 pytorctl pip
python - TOR with python stem (basic) - 'tor' 不在 PATH 中
我正在尝试将 .onion 网站的内容导入 python，一些研究表明 'stem '当我运行这个 tutorial script ，或更具体地说，当我尝试使用 stem.process.launch
tor -/var/lib/tor 无法读取 : Permission denied or Couldn't create private data directory
我使用google cloud shell来执行这个程序 Linux 版本 Distributor ID: Debian Description: Debian GNU/Linu
Android:在端口 9150 连接到 Tor SOCKS 代理抛出 `SocketException` ；仅当我安装 Tor Android 应用程序时才有效
我正在创建一个 Android Jsoup 网络抓取应用程序，它通过端口 9150 上的 SOCKS 代理连接到 Tor，(我希望请求完全匿名): private const val TOR_
java - 如何使用 tor 浏览器使用 selenium webdriver (java)？到目前为止，我已经尝试过以下代码，但收到消息 : 'tor failed to start'
import java.io.File; import org.openqa.selenium.WebDriver; import org.openqa.selenium.firefox.Firefo
c# - Lucene.Net NGramAnalyzer 使用引用的 ngram 生成查询，例如 [ titleNGram :"his ist sto tor ory"] 而不是 [ titleNGram :his ist sto tor ory]
关注 https://github.com/Sitecore/autohaus/blob/master/Autohaus.Custom/Indexing/Analyzers/NGramAnalyzer
tor - 关于Tor继电器，ORPort和DirPort有什么区别？
我正在设置中继，我的理解是必须打开ORPort才能中继来自外部世界的流量，但是我还需要启用DirPort吗？最佳答案不，您不需要启用DirPort。如果设置了DirPort，则中继还将用作目录镜像
tor - 无法创建单跳电路(单跳隧道)
我按照 toctrl 解释 (http://www.thesprawl.org/research/tor-control-protocol/) 关于如何创建真正快速的单跳电路，我成功创建了一个电路，但

首页

博学

6Ren·AI

商城

python - 使用 tor 和 python 抓取谷歌学术搜索