- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我目前正在开发一个用 Python 编码的爬虫,结合 Gevent/requests/lxml 来爬取一组定义的页面。我使用 redis 作为数据库来保存列表,例如待处理队列、抓取和已爬网的站点。对于每个 url,我都有一个键 url_ 并且我正在使用 SETNX 命令来确保该 URL 尚未被抓取,然后将其放入队列中。
我开始面临的一个问题是 url_ 键集开始增长得非常快,并且 Redis 将几乎所有数据保存在内存中,因此它很快就会成为一个问题。抓取的url没有过期时间,因为我只需要访问一次,而且url的内容以后不会改变,所以我还是想保留所有访问过的url。 (我正在过滤很多重复的 URL)是否可以在 Redis 中使用一些数据结构,如布谷鸟哈希表或布隆过滤器,这样我就可以防止访问的 URL 列表快速增长,并且仍然有利于速度什么时候查询队列?
有没有其他方法可以用来确定 URL 是否已经被访问过?该解决方案应该是可扩展的和分布式的,因为爬虫目前在不止一台机器上运行。谢谢!
最佳答案
一些建议:
研究使用 Redis' (2.8.9+) HyperLogLog data structure - 您可以使用 PFADD
和 PFCOUNT
来获得一个 URL 之前是否被统计过的合理答案。
不要将每个 URL 保留在其自己的 url_
键中 - 如 "Memory Optimization/Using hashes to abstract a very memory efficient plain key-value store on top of Redis" 中所述,合并到单个哈希或桶哈希中。
将访问过的 URL 存储在一个(多个分桶的)集合中,用于历史查找和自动重复数据删除。使用 Sorted Set,将 URL 的分数设置为其抓取时间的纪元值,以对它们进行排序并进行范围查询。
底线:除非您使用 url_
键来实际存储有关 URL 的内容,否则不要那样做。看起来您使用这些键只是为了管理状态,因此哈希和集合会更加高效和健壮。
关于python - Redis - 爬虫访问过的站点列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28719976/
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
PowerShell Web Access 允许您通过 Web 浏览器运行 PowerShell cmdlet。它显示了一个基于 Web 的控制台窗口。 有没有办法运行 cmdlet 而无需在控制台窗
我尝试在无需用户登录的情况下访问 Sharepoint 文件。 我可以通过以下任一方式获取访问 token 方法一: var client = new RestClient("https://logi
我目前正在尝试通过 Chrome 扩展程序访问 Google 服务。我的理解是,对于 JS 应用程序,Google 首选的身份验证机制是 OAuth。我的应用目前已成功通过 OAuth 向服务进行身份
假设我有纯抽象类 IHandler 和派生自它的类: class IHandler { public: virtual int process_input(char input) = 0; };
我有一个带有 ThymeLeaf 和 Dojo 的 Spring 应用程序,这给我带来了问题。当我从我的 HTML 文件中引用 CSS 文件时,它们在 Firebug 中显示为中止。但是,当我通过在地
这个问题已经有答案了: JavaScript property access: dot notation vs. brackets? (17 个回答) 已关闭 6 年前。 为什么这不起作用? func
我想将所有流量重定向到 https,只有 robot.txt 应该可以通过 http 访问。 是否可以为 robot.txt 文件创建异常(exception)? 我的 .htaccess 文件: R
我遇到了 LinkedIn OAuth2: "Unable to verify access token" 中描述的相同问题;但是,那里描述的解决方案并不能解决我的问题。 我能够成功请求访问 toke
问题 我有一个暴露给 *:8080 的 Docker 服务容器. 我无法通过 localhost:8080 访问容器. Chrome /curl无限期挂断。 但是如果我使用任何其他本地IP,我就可以访
我正在使用 Google 的 Oauth 2.0 来获取用户的 access_token,但我不知道如何将它与 imaplib 一起使用来访问收件箱。 最佳答案 下面是带有 oauth 2.0 的 I
我正在做 docker 入门指南:https://docs.docker.com/get-started/part3/#recap-and-cheat-sheet-optional docker-co
我正在尝试使用静态 IP 在 AKS 上创建一个 Web 应用程序,自然找到了一个带有 Nginx ingress controller in Azure's documentation 的解决方案。
这是我在名为 foo.js 的文件中的代码。 console.log('module.exports:', module.exports) console.log('module.id:', modu
我试图理解访问键。我读过https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-se
我正在使用 MGTwitterEngine"将 twitter 集成到我的应用程序中。它在 iOS 4.2 上运行良好。当我尝试从任何 iOS 5 设备访问 twitter 时,我遇到了身份验证 to
我试图理解访问键。我读过https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-se
我正在使用以下 API 列出我的 Facebook 好友。 https://graph.facebook.com/me/friends?access_token= ??? 我想知道访问 token 过
401 Unauthorized - Show headers - { "error": { "errors": [ { "domain": "global", "reas
我已经将我的 django 应用程序部署到 heroku 并使用 Amazon s3 存储桶存储静态文件,我发现从 s3 存储桶到 heroku 获取数据没有问题。但是,当我测试查看内容存储位置时,除
我是一名优秀的程序员,十分优秀!