algorithm - 网络爬虫算法 : depth?-6ren

algorithm - 网络爬虫算法 : depth?

转载作者：塔克拉玛干更新时间：2023-11-03 02:51:11

25

4

我正在研究爬虫，需要准确理解“链接深度”的含义。以nutch为例:http://wiki.apache.org/nutch/NutchTutorial

depth indicates the link depth from the root page that should be crawled.

那么，假设我有域 www.domain.com 并且想要抓取深度，比方说，3 -- 我需要做什么？如果一个站点可以表示为二叉树，那么我认为这不是问题。

最佳答案

链接深度是指页面离开根目录的“跃点”数，其中“跃点”是指跟随页面上的链接。 Nutch 有这个限制的原因是离主页很“远”的链接不太可能包含太多信息(主页将链接到最重要的信息，所以你离得越远，你找到的信息越详细)，虽然它们可以有很多，因此它们会占用大量存储空间、排名计算时间和带宽。

Nutch 因此使用一种称为 depth-limited search 的算法方案限制其运行时间和空间使用。如果它不使用这种启发式方法，它就必须抓取整个站点以对其中的所有页面进行排名并找到前 N。

要爬到深度 3，请实现此算法并为其指定深度范围 3。深度限制搜索的好处在于它是深度优先搜索 (DFS) 的变体，因此非常节省空间:

function depth-limited-crawl(page p, int d)
    if d == 0
        return
    /* do something with p, store it or so */
    foreach (page l in links(p))
        depth-limited-crawl(linked, d-1)

不，站点通常不能表示为二叉树；这是一个有向图。如果您以某种方式删除反向链接，那么它就会变成一棵多路树。无论哪种方式，许多网站都太大而无法为您的抓取工具存储。

关于algorithm - 网络爬虫算法 : depth?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4356524/

25

4

0

文章推荐： algorithm - 最快的边缘检测方法是什么？

文章推荐： PHP 代码及其对 SEO 的影响

文章推荐： web - 如何为学校网站做 SEO

文章推荐：离散相似性度量算法

python 'Assertion Error (depth == CV_32F || depth == CV_64F)'
cv2.phase() 函数有问题。我编写了以下代码: img = cv2.imread("1.jpg", 0) cv2.imshow("image", img) img_dx = cv2.Sobel
python - 不支持的输入图像深度 : 'VDepth::contains(depth)' where 'depth' is 4 (CV_32S)
我正在尝试在 OpenCV 中处理一些图像。具体来说，使用以下函数交换颜色 Pane 。 def green_ble_swap(image) im_rgb = cv2.cvtColor(ima
c++ - 如何在C++中设置Actor的 “Render Custom Depth Pass”和 “Depth Stencil Value”？
在Unreal 4.24编辑器中，Actor's Detail面板上的“Rendering”部分中，有一个“Render CustomDepth Pass”复选框，以及一个“CustomDepth S
c++ - OpenCV 错误 : Assertion failed ((img. depth() == CV_8U || img.depth() == CV_32F)
当我尝试在 Visual Studio 2010 中从 here 运行此代码时.我收到以下错误 OpenCV Error: Assertion failed ((img.depth() == CV_8
c# - OpenCV: src.depth() == dst.depth() && src.size == dst.size 异常
我有一个计算旋转和平移矩阵的代码如下: matrix Matrix rt = new Matrix(3, 4); if (positiveCount[0] > positiveCount[1])
python - InvalidArgumentError : input depth must be evenly divisible by filter depth: 4 vs 3
我是初学者。我尝试使用Tensorflow进行图像分类，并收到以下错误。我在网上发现了类似的问题，但我听不懂。错误是什么意思？我应该怎么做？请给我一些建议。我使用100个文件(png/15pix，15
python - OpenCV 断言失败 : (-215:Assertion failed) npoints >= 0 && (depth == CV_32F || depth == CV_32S)
我在 this website 上找到了以下代码: import os import os.path import cv2 import glob import imutils CAPTCHA_IMA
python - OpenCV错误:断言在ContourArea中失败(contour.checkVector(2)> = 0 &&(contour.depth()== CV_32F ||轮廓.depth()== CV_32S))
这是虚拟更衣室的代码因此，基本上是为了运行此代码ubuntu 12.04，python 2.7.3，gtk2和opencv 2。它删除背景屏幕，在几乎任何光线条件下检测T恤，替换T恤颜色。编写用于替
c++ - OpenCV:断言失败 ((img.depth() == CV_8U || img.depth() == CV_32F) && img.type() == templ.type())
我从上面得到这个错误，不知道如何避免它。我的目的是获取屏幕截图，然后对其进行模板匹配，以查看此时屏幕上是否显示图标。到目前为止，它只是图标的位置。我的代码: #include "opencv2/hig
python - 错误: (-215:Assertion failed) total >= 0 && (depth == CV_32F || depth == CV_32S) in function 'cv::convexHull'
我正在尝试获取使用开放姿势检测到的点的像素坐标值。有人可以告诉我这是识别像素坐标的正确方法吗？还是有其他特定方法可以获取下图中表示为 2 和 5 的像素坐标？代码: for pair in POSE
python - 出现以下错误消息 : error: (-215:Assertion failed) npoints >= 0 && (depth == CV_32F || depth == CV_32S) in function 'cv::contourArea'
我正在尝试使用代码阅读多项选择测试反馈中的答案，但出现以下错误消息: error: (-215:Assertion failed) npoints >= 0 && (depth == CV_32F |
Excel函数查找字符串表达式的 "depth"？
我有一个 Python 算法，它基本上可以帮助找到函数的“深度”: f(a) has a depth of 1 f(g(h(a,b,c),d)),e) has a depth of 3 伪算法是这样的
javascript - 如何调整d3中图形的 "depth"？
我正在使用 d3 编写动画，但我似乎无法找到一种方法来轻松确保图形始终出现在其他图形“后面”。具体来说，我正在处理直线和圆(想象一个有向图)，有些线位于圆的顶部，而其他线位于圆的下方，看起来有点糟糕
algorithm - 网络爬虫算法 : depth?
我正在研究爬虫，需要准确理解“链接深度”的含义。以nutch为例:http://wiki.apache.org/nutch/NutchTutorial depth indicates the link
depth-first-search - 前后编号
当做 depth first search在 Directed Graph pre 是什么意思和 post数字？例如: 如果您从节点 A 开始并按字母顺序排列 Depth First Search你
opengl - 投影矩阵 : What should depth map to?
我在尝试为 Vulkan 构建投影矩阵时遇到了矛盾，并且还没有找到关于投影矩阵如何将 Z 从输入向量映射到输出的解释。映射 x 和 y 很简单。我的理解是 OpenGL 投影矩阵应该将近视锥平面映射到
depth-first-search - 伪代码中的回溯深度优先搜索算法
boolean backtrackDFS(v) { If (SolutionFound(v)) return true; Mark vertex v as reached. f
depth-first-search - 关于广度优先完整性与深度优先不完整性的问题
根据 AIMA(人工智能:现代方法)中的 Norvig 的说法，深度优先算法并不完整(不会总是产生解决方案)，因为在某些情况下，下降的子树将是无限的。另一方面，如果分支因子不是无限的，则广度优先方法
jquery - 带有scroll.depth.js的Google跟踪代码管理器
我正在使用谷歌标签管理器对当前站点进行谷歌分析。现在，我们想知道人们在我们的网站上滚动了多远。所以我使用了一个名为jquery.scrollDepth.js的插件 $(document).r
haskell - smallcheck中的 `Depth`参数应该控制多少？
我正在用 smallcheck 做我的第一项真正的工作, 我对如何使用 Depth 有点困惑范围。在开始之前，让我先说明我在使用什么 smallcheck为了。在工作中，我们正在我们自己的内部数据库

首页

博学

6Ren·AI

商城

algorithm - 网络爬虫算法 : depth?