- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
对不起,如果这很愚蠢,但我只是想我应该试一试。假设我有一个巨大的图(例如,1000 亿个节点)。 Neo4J 支持 320 亿,其他支持或多或少相同,所以说我不能同时在一个数据库中拥有整个数据集,如果它是一个有向图(没有循环)并且每组节点连接,我可以在它上面运行 pagerank到下一组节点(因此不会向后创建新链接,只会创建指向新数据集的新链接)。
有没有办法我可以以某种方式获取以前的 pagerank 分数并将它们应用于新的数据集(我只关心最新数据集的 pagerank 但需要前一组的 pagerank 来导出最后一组数据)?
那有意义吗?如果是这样,可以这样做吗?
最佳答案
您需要计算 1000 亿乘 1000 亿矩阵的主要特征向量。除非它非常稀疏,否则您无法将其放入您的机器中。因此,当您一次只能查看矩阵的一小部分时,您需要一种方法来计算矩阵的前导特征向量。
计算特征向量的迭代方法只需要您在每次迭代时存储几个向量(它们每个都有 1000 亿个元素)。这些可能适合您的机器(对于 4 字节浮点数,每个向量需要大约 375GB)。一旦你有了一个候选的排名向量,你就可以(非常缓慢地)通过分块读取矩阵来应用你的巨型矩阵(因为你一次可以查看 320 亿行,你只需要超过 3 个块)。重复此过程,您将掌握在 pagerank 中使用的幂方法的基础知识。参见 http://www.ams.org/samplings/feature-column/fcarc-pagerank和 http://en.wikipedia.org/wiki/Power_iteration
当然,这里的限制因素是您需要检查矩阵的次数。事实证明,通过存储多个候选向量并使用一些随机算法,您可以获得良好的准确性,同时读取数据更少。这是应用数学领域当前的一个研究课题。您可以在这里找到更多信息 http://arxiv.org/abs/0909.4061 ,这里http://arxiv.org/abs/0909.4061 ,和这里 http://arxiv.org/abs/0809.2274 .这里有可用的代码:http://code.google.com/p/redsvd/但是你不能只使用现成的数据来处理你正在谈论的数据大小。
您可能会采用的另一种方法是查看“增量 svd”,它可能更适合您的问题,但有点复杂。考虑这个笔记:http://www.cs.usask.ca/~spiteri/CSDA-06T0909e.pdf本论坛:https://mathoverflow.net/questions/32158/distributed-incremental-svd
关于graph - 是否可以在没有整个数据集的情况下进行 pagerank?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9985551/
我对这两个概念感到困惑:In-graph replication和 Between-graph replication阅读 Replicated training 时在 tensorflow 的官方
我对这两个概念感到困惑:In-graph replication和 Between-graph replication阅读 Replicated training 时在 tensorflow 的官方
我正在尝试使用 https://graph.windows.net/{teantId}/users/[email protected]/thumbnailPhoto?api-version=1.6 访
我正在尝试使用 Graphs.jl 模块从 Julia 中的图中获取子图。我有图,并将其顶点和边存储到列表中,然后我的算法在该列表中移动并删除不属于新子图的节点和边。到这一部分,一切正常,在整个算法之
我是 Arangodb 的新手。我对使用哪个图形 API 感到困惑。我可以在 http://localhost:8529/ url 看到一张图。官方视频讨论了 Gremlin(我也安装了它)。然后就是
截至今天,文档建议使用 Microsoft Graph 而不是 Azure AD Graph API 来访问 Azure AD/B2C 资源。 之前,通过 Azure AD Graph API,我们可
我们希望将 .NET 应用从使用 Azure AD Graph 迁移到 Microsoft Graph API。目前我们正在使用包 Microsoft.WindowsAzure.Configurati
也许我遗漏了什么,但我不知道为什么 GraphQL 的标题中有 graph。 我猜这与 Graph Theory 有关和 graph并且可以看到某种联系,但如果有人能用简单的术语解释它就太好了。 最佳
我正在尝试使用API使用户的Facebook Pages具有已关联的Instagram企业帐户: https://graph.facebook.com/v2.7/me/accounts?field
如何导出我通过调用 GraphPlot 获得的输出的调整大小版本 (或 TreePlot 如果它们产生不同的输出)到 jpg 文件? 目前,我只是调用 Export[file_name, G]在哪里
如何在使用 gremlin 查询创建边缘之前检查边缘是否已存在?如何更新现有边缘而不是删除并重新创建? 最佳答案 我不确定您是否还在寻找答案;然而,简单的答案是 Cosmos DB 在 Gremlin
我使用的是 Xcode 10.2.1 和 macOS Catalina Developer Beta 2。每当我尝试使用内存图调试器时,我都会收到此错误: Memory Graph Debugger:
我正在设置一个机器人以在Facebook页面上自动发布。但是,当我运行脚本时,图形API会引发以下错误: Graph returned an error: (#200) Requires either
如何制定包含非英语字符(例如日耳曼语Umlauts)的Microsoft Graph /myOrganization/users OData查询? 例子: 我的租户中有一个名为“ThomasMülle
我正在寻找发布目标帖子时可以与Facebook Graph API一起使用的国家/州/城市列表。 我在this页面上找到了一个JSON文件,但是该文件无法正确解析,我也怀疑它是否可以用于发布目标,因为
关于 Graph API,帖子的分享数、帖子见解的分享数和页面上显示的分享数不相同。我假设这些代表相同的计数。我的假设错了吗? 来自帖子: https://graph.facebook.com/XXX
我正在尝试访问作为嵌套子站点一部分的列表的项目,如下所示: https://{mytenant}.sharepoint.com/ vendorSiteCollection/ v
我打算开发一个应用程序,但开发人员告诉我每个 IP 每 600 秒有 600 次调用的限制。该应用程序有很多场景,这还不够。有没有办法以某种方式增加限制?或者 Facebook 是否提供任何高级帐户或
我在 Neo4j 中创建了一张伦敦地铁 map 。站点通过 :CONNECTED_TO 关系连接,时间值表示停止之间需要多长时间(目前这些是我为测试输入的随机值)。位于多条线路上的车站每条线路都有一个
我正在尝试拉回所有用户的列表,我的预期结果将是大约 20,000 个用户。 图表似乎将我限制为 1000。 图调用https://graph.microsoft.com/v1.0/users返回 10
我是一名优秀的程序员,十分优秀!