- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在从事一个分析期刊文章被引用方式的项目。我有一个很大的期刊文章名称文件。我打算将它们传递给 Google Scholar,看看每个都有多少引用。
这是我遵循的策略:
使用 http://www.icir.org/christian/scholar.html 中的“scholar.py” .这是一个预先编写的 python 脚本,用于搜索 google scholar 并以 CSV 格式返回第一次命中的信息(包括引用次数)
Google scholar 在搜索一定次数后屏蔽你(我有大约 3000 篇文章标题要查询)。我发现大多数人使用 Tor(How to make urllib2 requests through Tor in Python? 和 Prevent Custom Web Crawler from being blocked)来解决这个问题。 Tor 是一项每隔几分钟就会为您提供一个随机 IP 地址的服务。
我已经成功设置了 scholar.py 和 tor,并且可以正常工作。我对 python 或库 urllib2 不是很熟悉,想知道需要对 scholar.py 进行哪些修改才能通过 Tor 路由查询。
如果存在的话,我也乐于接受关于一种更简单(并且可能有很大不同)的大规模谷歌学者查询方法的建议。
提前致谢
最佳答案
对我来说,使用 TOR 的最佳方式是 setting up a local proxy like polipo .我喜欢克隆 repo 并在本地编译:
git clone https://github.com/jech/polipo.git
cd polipo
make all
make install
但是你可以使用你的包管理器(brew install polipo
在 mac 上,apt install polipo
在 Ubuntu 上)。然后编写一个简单的配置文件:
echo socksParentProxy=localhost:9050 > ~/.polipo
echo diskCacheRoot='""' >> ~/.polipo
echo disableLocalInterface=true >> ~/.polipo
然后运行它:
polipo
参见 urllib docs on how to use a proxy .与许多 Unix 应用程序一样,urllib 将遵循环境变量 http_proxy
:
export http_proxy="http://localhost:8123"
export https_proxy="http://localhost:8123"
我喜欢使用 requests 库,这是一个更好的 urllib 包装器。如果您还没有:
pip install requests
如果 urllib 使用的是 Tor,下面的一行代码应该打印 True:
python -c "import requests; print('Congratulations' in requests.get('http://check.torproject.org/').text)"
最后一点,请注意:Tor 网络并不是在 Internet 上做傻事的免费通行证,因为即使使用它,您也不应该假设您是完全匿名的。
关于python - 使用 tor 和 python 抓取谷歌学术搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11443600/
我想知道当我连接到 Tor 网络时将我的数据包发送到哪里。我想在 Tor 网络中看到其他路由器,如下所示: $ traceroute google.com 3 ........... 4 *
我知道我们已经讨论过了,但我在这里找到的问答和谷歌搜索不适合我的问题。 我读到我不应该这样做有几个原因(看看替代品,一个负担得起的种子箱可能是最好的选择)。尽管如此,我仍在努力让它工作,但目前我做不到
默认 TOR在链中使用 3 个节点(大约),但它的工作速度非常缓慢。我想使用一个,所以连接到某个服务器,那个已经是导出节点。 我知道这会影响我的匿名性,但我认为我可以忍受(特别是如果这样做会更快的话)
是否可以阻止 Tor 用户? (https://www.torproject.org/) 由于我运行的网站的性质,我应该尽我所能停止多个帐户并阻止某些位置。 Tor 比代理更糟糕 - 完全是一场噩梦.
我的计算机上运行着 Tor,我需要每五分钟更改一次 Tor 导出节点。例如,如果我开始通过某个导出节点使用 Tor,那么我希望 Tor 在 5 分钟内更改为具有不同 IP 地址的导出节点。我怎样才
来历及作用 Tor.exe进程程序文件通常是Tor/Tor Project或被认为是Privoxy或Polipo、Hide My IP Address、Tor 0.2.0.2-alpha类似的The
我正在尝试通过 python 运行 Tor。我的目标是能够在我选择的时间不时切换导出或以其他方式更改我的 IP。我已经学习了几个教程并遇到了几个不同的错误。 此代码打印我的 IP 地址 import
我可以在 Linux 上使用 torrc 文件轻松更改该设置,但在 Windows 版 Tor 浏览器上找不到该选项。 看起来可以通过“vidalia”完成:但是如何访问它?我在 TOR 浏览器上找不
我正在使用连接到 tor 网络的 stem 示例,这应该将客户端连接到 tor 网络,它似乎正在这样做但是当我检查 ip 地址时它是不正确的而不是 tor ip,任何关于为什么会这样,更重要的是我该如
我正在尝试用 Java 代码实现 Orchid Tor 库;不幸的是,由于缺乏文档,我无法让它工作,这就是我所做的: ...................... private final stat
我已经在 linux 系统上安装了 tor 浏览器包。我从命令行启动它 :~$ ./.tor/tor-browser_en-US/start-tor-browser 这将首先启动 vidalia,然后
struct Tnode { Tnode *left; Tnode *right; int content; Tnode (int item = 0) { this->content
我正在关注博文 here . 我使用的是 Windows 机器,所以我无法按照确切的步骤操作。这就是我所做的: 安装了 Tor Browser for Windows 已安装 pytorctl pip
我正在尝试将 .onion 网站的内容导入 python,一些研究表明 'stem '当我运行这个 tutorial script ,或更具体地说,当我尝试使用 stem.process.launch
我使用google cloud shell来执行这个程序 Linux 版本 Distributor ID: Debian Description: Debian GNU/Linu
我正在创建一个 Android Jsoup 网络抓取应用程序,它通过端口 9150 上的 SOCKS 代理连接到 Tor,(我希望请求完全匿名): private const val TOR_
import java.io.File; import org.openqa.selenium.WebDriver; import org.openqa.selenium.firefox.Firefo
关注 https://github.com/Sitecore/autohaus/blob/master/Autohaus.Custom/Indexing/Analyzers/NGramAnalyzer
我正在设置中继,我的理解是必须打开ORPort才能中继来自外部世界的流量,但是我还需要启用DirPort吗? 最佳答案 不,您不需要启用DirPort。如果设置了DirPort,则中继还将用作目录镜像
我按照 toctrl 解释 (http://www.thesprawl.org/research/tor-control-protocol/) 关于如何创建真正快速的单跳电路,我成功创建了一个电路,但
我是一名优秀的程序员,十分优秀!