gpt4 book ai didi

ruby-on-rails - 站点中的层次结构

转载 作者:数据小太阳 更新时间:2023-10-29 08:10:29 24 4
gpt4 key购买 nike

我不确定这个问题是否会有单一答案,甚至是所有答案的简明答案,但我想我还是会问。该问题也不是特定于语言的,但可能有某种伪算法作为答案。

基本上,我正在尝试了解蜘蛛的工作原理,据我所知,我发现没有蜘蛛管理层次结构。他们只列出内容或链接,但没有排序。

我的问题是:我们查看一个网站,可以很容易地从视觉上确定哪些链接是导航的、内容相关的或网站外部的。我们如何使它自动化?我们如何以编程方式帮助蜘蛛确定父页面和子页面。

当然,第一个答案是使用 URL 的目录结构。例如 www.stackoverflow.com/questions/spidersspiders 是 questions 的 child ,questions 是 base site 的 child 等等。但是现在层次结构通常是扁平的,id 在 URL 中被引用。

到目前为止,我对这个问题有 2 个答案,希望得到一些反馈。

1:发生。

在所有页面中出现次数最多的链接将被称为导航链接。这似乎是最有前途的设计,但我可以看到动态链接和其他问题突然出现,但它们似乎微不足道。

2:深度。

例如,我需要点击多少次网站才能到达某个页面。这似乎是可行的,但如果在主页上发布了一些信息,而实际上在底层,则将其确定为顶级页面或节点。

那么有没有人对如何在链接中建立蜘蛛判断层次结构有任何想法或建设性的批评。


(如果有人真的很好奇,蜘蛛的后端部分很可能是 Ruby on rails)

最佳答案

你的目标是什么?如果您想爬取较少数量的网站并为某种聚合器提取有用的数据,最好构建有针对性的爬虫(为每个站点编写爬虫)。

如果你想抓取数百万的页面......那么你必须非常熟悉 AI 的一些高级概念。

可以从这篇文章开始http://www-ai.ijs.si/SasoDzeroski/ECEMEAML04/presentations/076-Znidarsic.pdf

关于ruby-on-rails - 站点中的层次结构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6504990/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com