gpt4 book ai didi

database - 从哪里获得具有相应网页数据集的网页图

转载 作者:搜寻专家 更新时间:2023-10-30 21:59:19 25 4
gpt4 key购买 nike

我正在尝试在一组网页上实现 PageRank 算法,为此我需要一个样本 dataset 网页,以及与它们对应的网络图,此网络图表示数据集包含的页面之间的链接。

我需要网络图,这样我才能获得转换矩阵并进行所需的计算。示例:

URL1 -> URL2
URL3390 -> URL5

URLxxxx 是一个id,以某种方式映射到相应的网页

我的问题是:我如何/从哪里可以获得这个资源(我在互联网上尝试了很多链接,但没有任何帮助),我也希望它不是很大,(互联网连接限制) , 如果我不能拥有它,你能给我一些建议吗?

更新:对于那些可能认为这是题外话的人来说,他们可能是对的,像软件推荐或计算机科学这样的网络,甚至没有相应的标签,而且并不真正适合这种问题,感谢您的帮助。

最佳答案

Site Visualizer 可能是您正在寻找的工具。该应用程序具有 generate visual sitemap 的功能.

下载并安装应用程序(标准版或专业版),单击创建新项目 工具按钮,输入您需要抓取的网站的 URL,然后单击开始按钮。

抓取完成后,单击可视站点地图 选项卡上的绘制 按钮。网站的图形将绘制为一组页面(矩形)和链接(带箭头的线)。单击一个框以选择特定页面并突出显示其出站链接: generate visual sitemap

使用All Links report可以得到网站所有链接的数据集(在报告 选项卡上)。 “From URL”和“To URL”列是您所需要的。

除此之外,您还可以使用特定的 SQL 查询来表示已抓取网站的页面或链接的数据集。例如,转到数据库 选项卡,键入以下查询并单击执行 工具按钮:

SELECT * FROM links WHERE link_type='A'

结果集将仅包含A-tag 链接,不包括图像、CSS 文件、JS 等。

该程序具有 30 天的全功能试用期,因此您可以免费执行任务。

关于database - 从哪里获得具有相应网页数据集的网页图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23376840/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com