graph - 是否可以在没有整个数据集的情况下进行 pagerank？-6ren

graph - 是否可以在没有整个数据集的情况下进行 pagerank？

转载作者：行者123 更新时间：2023-12-04 15:14:24

24

4

对不起，如果这很愚蠢，但我只是想我应该试一试。假设我有一个巨大的图(例如，1000 亿个节点)。 Neo4J 支持 320 亿，其他支持或多或少相同，所以说我不能同时在一个数据库中拥有整个数据集，如果它是一个有向图(没有循环)并且每组节点连接，我可以在它上面运行 pagerank到下一组节点(因此不会向后创建新链接，只会创建指向新数据集的新链接)。

有没有办法我可以以某种方式获取以前的 pagerank 分数并将它们应用于新的数据集(我只关心最新数据集的 pagerank 但需要前一组的 pagerank 来导出最后一组数据)？

那有意义吗？如果是这样，可以这样做吗？

最佳答案

您需要计算 1000 亿乘 1000 亿矩阵的主要特征向量。除非它非常稀疏，否则您无法将其放入您的机器中。因此，当您一次只能查看矩阵的一小部分时，您需要一种方法来计算矩阵的前导特征向量。

计算特征向量的迭代方法只需要您在每次迭代时存储几个向量(它们每个都有 1000 亿个元素)。这些可能适合您的机器(对于 4 字节浮点数，每个向量需要大约 375GB)。一旦你有了一个候选的排名向量，你就可以(非常缓慢地)通过分块读取矩阵来应用你的巨型矩阵(因为你一次可以查看 320 亿行，你只需要超过 3 个块)。重复此过程，您将掌握在 pagerank 中使用的幂方法的基础知识。参见 http://www.ams.org/samplings/feature-column/fcarc-pagerank和 http://en.wikipedia.org/wiki/Power_iteration

当然，这里的限制因素是您需要检查矩阵的次数。事实证明，通过存储多个候选向量并使用一些随机算法，您可以获得良好的准确性，同时读取数据更少。这是应用数学领域当前的一个研究课题。您可以在这里找到更多信息 http://arxiv.org/abs/0909.4061 ，这里http://arxiv.org/abs/0909.4061 ，和这里 http://arxiv.org/abs/0809.2274 .这里有可用的代码:http://code.google.com/p/redsvd/但是你不能只使用现成的数据来处理你正在谈论的数据大小。

您可能会采用的另一种方法是查看“增量 svd”，它可能更适合您的问题，但有点复杂。考虑这个笔记:http://www.cs.usask.ca/~spiteri/CSDA-06T0909e.pdf本论坛:https://mathoverflow.net/questions/32158/distributed-incremental-svd

关于graph - 是否可以在没有整个数据集的情况下进行 pagerank？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9985551/

24

4

0

文章推荐： Spring:如何做透明的运行时可变属性配置

文章推荐： clojure - Clojure 中的巨大文件和 Java 堆空间错误

文章推荐： vb.net - 在鼠标悬停时更改 datagridview 中选定行的背景色

文章推荐： uilabel - 子类化 UILabel

graph - 分布式 tensorflow : the difference between In-graph replication and Between-graph replication
我对这两个概念感到困惑:In-graph replication和 Between-graph replication阅读 Replicated training 时在 tensorflow 的官方
graph - 分布式 tensorflow : the difference between In-graph replication and Between-graph replication
我对这两个概念感到困惑:In-graph replication和 Between-graph replication阅读 Replicated training 时在 tensorflow 的官方
graph - graph.windows.net 和 graph.microsoft.com 之间有什么区别？
我正在尝试使用 https://graph.windows.net/{teantId}/users/[email protected]/thumbnailPhoto?api-version=1.6 访
indexing - Julia /Graphs.jl : creating graph using graph() and arguments
我正在尝试使用 Graphs.jl 模块从 Julia 中的图中获取子图。我有图，并将其顶点和边存储到列表中，然后我的算法在该列表中移动并删除不属于新子图的节点和边。到这一部分，一切正常，在整个算法之
graph - Arangodb Graph，该用哪个
我是 Arangodb 的新手。我对使用哪个图形 API 感到困惑。我可以在 http://localhost:8529/ url 看到一张图。官方视频讨论了 Gremlin(我也安装了它)。然后就是
microsoft-graph-api - 如何使用 Graph API 读取 Azure B2C 自定义属性(适用于 Azure AD Graph)
截至今天，文档建议使用 Microsoft Graph 而不是 Azure AD Graph API 来访问 Azure AD/B2C 资源。之前，通过 Azure AD Graph API，我们可
azure - [从 Azure AD Graph 迁移到 Microsoft Graph] : how to get the parameters to use the Microsoft Graph API
我们希望将 .NET 应用从使用 Azure AD Graph 迁移到 Microsoft Graph API。目前我们正在使用包 Microsoft.WindowsAzure.Configurati
graph - 为什么 GraphQL 中的 "graph"？
也许我遗漏了什么，但我不知道为什么 GraphQL 的标题中有 graph。我猜这与 Graph Theory 有关和 graph并且可以看到某种联系，但如果有人能用简单的术语解释它就太好了。最佳
facebook-graph-api - Graph API中缺少页面的已连接Instagram帐户字段
我正在尝试使用API使用户的Facebook Pages具有已关联的Instagram企业帐户: https://graph.facebook.com/v2.7/me/accounts?field
graph - 如何导出 Mathematica Graph 对象的更高分辨率图像？
如何导出我通过调用 GraphPlot 获得的输出的调整大小版本 (或 TreePlot 如果它们产生不同的输出)到 jpg 文件？目前，我只是调用 Export[file_name, G]在哪里
graph - cosmos db graph api如何检查边缘是否存在并更新？
如何在使用 gremlin 查询创建边缘之前检查边缘是否已存在？如何更新现有边缘而不是删除并重新创建？最佳答案我不确定您是否还在寻找答案；然而，简单的答案是 Cosmos DB 在 Gremlin
xcode - 使用 Xcode Memory Graph Debugger 时出现 "Memory Graph Debugger: no serialized memory graph received from LeakAgent"错误
我使用的是 Xcode 10.2.1 和 macOS Catalina Developer Beta 2。每当我尝试使用内存图调试器时，我都会收到此错误: Memory Graph Debugger:
facebook-graph-api - Graph API错误＃200，即使具有正确的权限
我正在设置一个机器人以在Facebook页面上自动发布。但是，当我运行脚本时，图形API会引发以下错误: Graph returned an error: (#200) Requires either
microsoft-graph-api - Microsoft Graph-使用umlaut和其他unicode字符进行过滤
如何制定包含非英语字符(例如日耳曼语Umlauts)的Microsoft Graph /myOrganization/users OData查询？例子: 我的租户中有一个名为“ThomasMülle
facebook-graph-api - Facebook Graph API中用于定位的国家和城市列表
我正在寻找发布目标帖子时可以与Facebook Graph API一起使用的国家/州/城市列表。我在this页面上找到了一个JSON文件，但是该文件无法正确解析，我也怀疑它是否可以用于发布目标，因为
facebook-graph-api - Graph API 的共享数
关于 Graph API，帖子的分享数、帖子见解的分享数和页面上显示的分享数不相同。我假设这些代表相同的计数。我的假设错了吗？来自帖子: https://graph.facebook.com/XXX
microsoft-graph-api - Microsoft Graph - 为什么访问另一个网站集中的子网站需要根网站读取权限？
我正在尝试访问作为嵌套子站点一部分的列表的项目，如下所示: https://{mytenant}.sharepoint.com/ vendorSiteCollection/ v
facebook-graph-api - Graph API 调用次数限制
我打算开发一个应用程序，但开发人员告诉我每个 IP 每 600 秒有 600 次调用的限制。该应用程序有很多场景，这还不够。有没有办法以某种方式增加限制？或者 Facebook 是否提供任何高级帐户或
graph - Neo4j Graph DB - 伦敦地铁规划师 - 找不到路径
我在 Neo4j 中创建了一张伦敦地铁 map 。站点通过 :CONNECTED_TO 关系连接，时间值表示停止之间需要多长时间(目前这些是我为测试输入的随机值)。位于多条线路上的车站每条线路都有一个
microsoft-graph-api - MS Graph - 获取所有用户
我正在尝试拉回所有用户的列表，我的预期结果将是大约 20,000 个用户。图表似乎将我限制为 1000。图调用https://graph.microsoft.com/v1.0/users返回 10

首页

博学

6Ren·AI

商城

graph - 是否可以在没有整个数据集的情况下进行 pagerank？