- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在开发网络爬虫/蜘蛛,我需要某种方法来有效地大量存储字符串,作为(1)已存储的站点和(2)爬虫队列的引用。这些存储数据结构必须能够容纳超过数百万个字符串值。我将分别从我研究过的研究和所做的事情开始。
我尝试的第一个方法是从此线程引用的
在这个帖子中,OP 讨论了优化 HashSet,并得到了很多好的反馈和警告。 HashSet 使用起来非常昂贵,并且导致我的程序很快崩溃。在回复中,建议了像 Trove 这样的替代方案,但该项目已停止,我相信还有更好的替代方案。
我尝试的第二种方法是使用 MongoDB 创建队列。我显式地为队列创建了一个集合,其中遵循 FIFO,因为 Mongo 使用锁,因此它应该是线程安全的。据我所知,它的效果非常好。我的爬虫运行得很好,平均使用很少的内存(12~42MB)。然而,这种方法很快被证明非常糟糕,因为 MongoDB 的搜索速度为 o(n)。创建一个迭代器来检查每个要缓存的单个网站的两个集合(网站集合和队列集合)被证明是非常有害的。
已关注此主题
Strategies for fast searches of billions of small documents in MongoDB
它确实稍微提高了搜索质量,但只是轻微的偏移。下面是我的网络爬虫的简单伪代码。
while(true){
parse();
}
public void parse(){
String next = // next url in queue to be parsed
Document document = // get HTML dom from next url
// store document inside of site storage (mongo collection)
// grab links from document
for( all links found ) {
if(next doesn't exist in website collection and next isn't already in queue){
add to queue
}
}
}
检查“网站集合中不存在下一个并且下一个尚未在队列中”,我必须创建一个迭代器或使用 mongo.collection.find().limit(1) (这也是一个迭代器,就在幕后)检查下一个元素是否存在于当前存储的网站或队列中。正如您所看到的,随着这两个集合的增长(目前两个集合都超过 100,000 个条目),处理器不断检查这两个集合可能会非常昂贵且缓慢。
这让我回到了第一个方法,该方法在内存中可能保存多达数十亿个 URL,以便更快地搜索两个存储中的重复项。我读到的大部分内容都非常有用,但已经过时了,我想知道你们认为最好的方法是什么?
最佳答案
holding potentially up to billions URLs in memory
这肯定是你不需要也不应该做的事情。
I have to create an iterator
这肯定是您绝对不能做的事情(除非迭代器仅在数据的一小部分上运行)。
<小时/>next doesn't exist in website collection and next isn't already in queue
考虑数据表示。对于搜索,列表太慢,因此您需要索引搜索。类似于 HashMap
或 TreeMap
,但在磁盘上。
我对 MongoDB 几乎一无所知,但每个名副其实的数据库都可以做到这一点。我想,它已经适用于您的集合,只是队列是一个问题。队列更加复杂,因为您需要快速搜索和队列性。
通过将每个新元素放入队列和集合中,可以轻松消除此问题,因此您只需检查集合中是否有重复项(IIUYC 可以你做得很快)。显然,您需要一个标记来区分尚未获取的元素。
<小时/>下一个优化将在内存中保留一些最近访问的元素的缓存,以便消除一些重复的数据库查询。我敢打赌,布隆过滤器也能有所帮助。
<小时/>您还可以使用磁盘上真实的 map
:https://github.com/OpenHFT/Chronicle-Map
关于Java:优化的大规模值(value)存储替代方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58355896/
我应该编写一个函数来打印一组给定的三个数字中两个较大数字的平方和。 我对这种情况的处理相当笨拙。我没有编写返回一组 3 中最大的两个数字的函数,而是编写了函数,以便表达式减少到两个所需的数字。 # S
如果有人可以提供帮助,我将不胜感激。我一直在敲我的头一天试图让这个工作。我已经在互联网上搜索并重新阅读了手册,但我就是不明白。 guile << __EOF__ ( define heading-li
目前我正在处理一个方案问题,其中我们正在使用方案列表表示一个图。我们使用的第一个变体是表示为 的边列表图 '((x y) (y z) (x z)) 我们正在使用的图的第二个变体被称为 x 图,表示为
我正在尝试创建一个函数,该函数将两个函数作为参数并执行它们。 我尝试使用 cond ,但它只执行 action1 . (define seq-action (lambda (action1 act
我提前为我的原始英语道歉;我会尽量避免语法错误等。 两周前,我决定更新我对 Scheme(及其启示)的知识,同时实现我在手上获得的一些数学 Material ,特别是我注册的自动机理论和计算类(cla
Scheme中有没有函数支持分数的“div”操作? 意思是 - 11 格 2.75 = 4。 最佳答案 我认为你的问题的答案是:没有,但你可以定义它: #lang racket (define (di
我在scheme中实现合并排序,我必须通过定义两个辅助方法来实现:merge和split。 Merge 需要两个列表(已经按递增顺序)并将它们合并在一起。我这样做了如下: (define merge
尝试从终端加载方案文件。我创建了一个名为 test.scm 的文件,其中包含以下代码: (define (square x) (* x x)) (define (sum-of-squares x y)
我有以下代码: (define (howMany list) (if (null? list) 0 (+ 1 (howMany (cdr list))))) 如果我们执行以
我有点了解如何将基本函数(例如算术)转换为Scheme中的连续传递样式。 但如果函数涉及递归怎么办?例如, (define funname (lambda (arg0 arg1)
我正在尝试附加两个字符串列表 但我不知道如何在两个单词之间添加空格。 (define (string-concat lst1 lst2) (map string-append lst1
这个问题已经有答案了: How do I pass a list as a list of arguments in racket? (2 个回答) 已关闭 8 年前。 我有一个函数,它需要无限数量的
我对这段代码的工作方式感到困惑: (define m (list 1 2 3 '(5 8))) (let ((l (cdr m))) (set! l '(28 88))) ==>(1 2 3 (5 8
我正在为学校做一项计划作业,有一个问题涉及我们定义记录“类型”(作为列表实现)(代表音乐记录)。 我遇到的问题是我被要求创建一个过程来创建这些记录的列表,然后创建一个将记录添加到该列表的函数。这很简单
我有以下代码: (define (howMany list) (if (null? list) 0 (+ 1 (howMany (cdr list))))) 如果我们执行以
我正在尝试附加两个字符串列表 但我不知道如何在两个单词之间添加空格。 (define (string-concat lst1 lst2) (map string-append lst1
如何使用抽象列表函数(foldr、foldl、map 和 filter 编写函数),无需递归,消耗数字列表 (list a1 a2 a3 ...) 并产生交替和 a1 - a2 + a3 ...? 最
我试图找出在 Scheme 中发生的一些有趣的事情: (define last-pair (lambda (x) (if (null? (cdr x))
这个问题在这里已经有了答案: Count occurrence of element in a list in Scheme? (4 个答案) 关闭 8 年前。 我想实现一个函数来计算列表中元素出现
我正在尝试使用下面的代码获取方案中的导数。谁能告诉我哪里出错了?我已经尝试了一段时间了。 (define d3 (λ (e) (cond ((number? e) 0) ((e
我是一名优秀的程序员,十分优秀!