gremlin - 对来自不同顶点的属性进行分组-6ren

gremlin - 对来自不同顶点的属性进行分组

转载作者：行者123 更新时间：2023-12-05 02:56:27

25

4

我有一个看起来像下面这样的图表:

pathway -> pathway_component -> gene -> organism

您可以像这样制作示例图:

m1 = g.addV('pathway').property('pathway_name', 'M00002').next()
m2 = g.addV('pathway').property('pathway_name', 'M00527').next()

c1 = g.addV('pathway_component').property('name', 'K00001').next()
c2 = g.addV('pathway_component').property('name', 'K00002').next()
c3 = g.addV('pathway_component').property('name', 'K00003').next()

g.addE('partof').from(c1).to(m1).iterate()
g.addE('partof').from(c2).to(m1).iterate()
g.addE('partof').from(c3).to(m2).iterate()

g1 = g.addV('gene').property('name', 'G00001').next()
g2 = g.addV('gene').property('name', 'G00002').next()
g3 = g.addV('gene').property('name', 'G00003').next()
g4 = g.addV('gene').property('name', 'G00004').next()
g5 = g.addV('gene').property('name', 'G00005').next()
g6 = g.addV('gene').property('name', 'G00006').next()
g7 = g.addV('gene').property('name', 'G00007').next()
g8 = g.addV('gene').property('name', 'G00008').next()

g.addE('isa').from(g1).to(c1).iterate()
g.addE('isa').from(g2).to(c3).iterate()

g.addE('isa').from(g3).to(c1).iterate()
g.addE('isa').from(g4).to(c2).iterate()
g.addE('isa').from(g5).to(c3).iterate()

g.addE('isa').from(g6).to(c1).iterate()
g.addE('isa').from(g7).to(c1).iterate()
g.addE('isa').from(g8).to(c2).iterate()

o1 = g.addV('organism').property('name', 'O000001').next()
o2 = g.addV('organism').property('name', 'O000002').next()
o3 = g.addV('organism').property('name', 'O000003').next()
o4 = g.addV('organism').property('name', 'O000004').next()

g.addE('partof').from(g1).to(o1).iterate()
g.addE('partof').from(g2).to(o1).iterate()
g.addE('partof').from(g3).to(o2).iterate()
g.addE('partof').from(g4).to(o2).iterate()
g.addE('partof').from(g5).to(o3).iterate()
g.addE('partof').from(g6).to(o3).iterate()
g.addE('partof').from(g7).to(o4).iterate()
g.addE('partof').from(g8).to(o4).iterate()

我想计算每个生物体每个通路的基因数，这样结果看起来像这样:

organism_1 pathway_1 gene_count
organism_1 pathway_2 gene_count
organism_2 pathway_1 gene_count
organism_2 pathway_2 gene_count

但是到现在我还没有弄明白。我尝试了以下方法:

g.V().has('pathway', 'pathway_name', within('M00002', 'M00527')).project('organism', 'pathway', 'count'). 
   by(__.in().hasLabel('pathway_component').
       in().hasLabel('gene').
       out().hasLabel('organism').
       values('name')).
   by('pathway_name').
   by(__.in().hasLabel('pathway_component').
       in().hasLabel('gene').
       count())

但看起来分组是错误的:

==>[organism:O000001,pathway:M00002,count:6]
==>[organism:O000001,pathway:M00527,count:2]

在这种情况下，对于所列的两条途径，似乎所有生物体及其计数都被组合在一起(有四种生物体)。我希望看到类似的内容:

O000001 M00002 1
O000001 M00527 1
O000002 M00002 2
O000002 M00527 0
O000003 M00002 1
O000003 M00527 1
O000004 M00002 2
O000004 M00527 0

如何根据不同的生物体和不同的途径拆分结果？

最佳答案

希望下面的最终查询对您有所帮助。我展示了我用来到达那里的步骤，其中一部分是确保我理解你的数据结构。

首先我想看看图形的形状。

gremlin> g.V().hasLabel('pathway').
......1>       in().hasLabel('pathway_component').
......2>       in().hasLabel('gene').
......3>       out().hasLabel('organism').
......4>       path().
......5>         by('pathway_name').
......6>         by('name').
......7>         by('name').
......8>         by('name')
==>[M00002,K00001,G00006,O000003]
==>[M00002,K00001,G00007,O000004]
==>[M00002,K00001,G00001,O000001]
==>[M00002,K00001,G00003,O000002]
==>[M00002,K00002,G00004,O000002]
==>[M00002,K00002,G00008,O000004]
==>[M00527,K00003,G00005,O000003]
==>[M00527,K00003,G00002,O000001]

然后我使用 path 和 group 来了解更多关于这些关系分组的信息。

gremlin> g.V().hasLabel('pathway').
......1>       in().hasLabel('pathway_component').
......2>       in().hasLabel('gene').
......3>       out().hasLabel('organism').as('org').
......4>       group().
......5>         by(select('org').by('name')).
......6>         by(
......7>       path().
......8>         by('pathway_name').
......9>         by('name').
.....10>         by('name').
.....11>         by('name').fold()).
.....12>       unfold()
==>O000004=[path[M00002, K00001, G00007, O000004], path[M00002, K00002, G00008, O000004]]
==>O000003=[path[M00002, K00001, G00006, O000003], path[M00527, K00003, G00005, O000003]]
==>O000002=[path[M00002, K00001, G00003, O000002], path[M00002, K00002, G00004, O000002]]
==>O000001=[path[M00002, K00001, G00001, O000001], path[M00527, K00003, G00002, O000001]]

最后我将上面的查询更改为嵌套两个组

gremlin> g.V().hasLabel('pathway').as('pathway').
......1>       in().hasLabel('pathway_component').
......2>       in().hasLabel('gene').as('gene').
......3>       out().hasLabel('organism').as('org').
......4>       group().
......5>         by(select('org').by('name')).
......6>         by(
......7>           group().
......8>             by(select('pathway').by('pathway_name')).
......9>             by(select('gene').by('name').fold())).
.....10>       unfold()
==>O000004={M00002=[G00007, G00008]}
==>O000003={M00002=[G00006], M00527=[G00005]}
==>O000002={M00002=[G00003, G00004]}
==>O000001={M00002=[G00001], M00527=[G00002]}

这会产生有机体、通路名称和基因。

在此基础上，我再次更改查询以生成计数。我希望这接近您的需要。

gremlin> g.V().hasLabel('pathway').as('pathway').
......1>       in().hasLabel('pathway_component').
......2>       in().hasLabel('gene').as('gene').
......3>       out().hasLabel('organism').as('org').
......4>       group().
......5>         by(select('org').by('name')).
......6>         by(
......7>           group().
......8>             by(select('pathway').by('pathway_name')).
......9>             by(select('gene').by('name').fold().count(local))).
.....10>       unfold()
==>O000004={M00002=2}
==>O000003={M00002=1, M00527=1}
==>O000002={M00002=2}
==>O000001={M00002=1, M00527=1}

关于gremlin - 对来自不同顶点的属性进行分组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60573254/

25

4

0

文章推荐： reactjs - 如何更新 useSubscription Hook 中的订阅变量 - Apollo v3

文章推荐： python - 等值线图如何与 Python 中的阴影栅格相结合？

gremlin - 将 gremlin 连接到 gremlin 服务器时出现问题
我想连接到我的 gremlin 服务器，我在其中提供了具有同一主机的 gremlin-server.yaml 和 remote.yaml。我的 gremlin 在 Linux 服务器上。在发出 :re
gremlin - Gremlin 中的远程遍历可以使用策略吗？
我正在使用 Gremlin-Java 和远程模式与 JanusGraph 进行交互。我现在在边缘定义一个新属性，以便在使用特定策略时过滤它们。以下是我尝试在应用程序中运行的代码，但该策略似乎被完全忽略
gremlin - 将 gremlin CLI 连接到远程 tinkerpop gremlin-server
使用 gremlin-javascript ，我使用以下方法连接到远程服务器: const gremlin = require('gremlin') const Graph = gremlin.str
gremlin - 在 gremlin 查询中进行类型转换
如何使用 AWS Neptune GDB 在 gremlin 控制台中将字符串值转换为整数类型。我有字符串值的属性“age”，需要将其转换为 Integer 类型以用于查询中的数学运算。感谢所有建议。
gremlin - gremlin-console 中的计时查询
我正在尝试比较我在 gremlin-console 中查询的响应时间(图形数据库是 janusgraph，后端数据库是 hbase)。为此，有一个“clock()”步骤，它可以多次运行查询并返回平均响
gremlin - TinkerPop Gremlin，如何过滤和分组子元素
我是 Gremlin 的新手，我需要帮助来设置最佳查询以选择唯一和过滤的结果。从一个 team 开始，我会得到每个的 player (注意:每个玩家可以为多个团队效力)由 is_friends_w
gremlin - 如何在 Gremlin 中更新具有相同属性的多个顶点
我有一组具有相同属性“TYPE”的顶点。如何为所有给定的顶点集更新此属性。最佳答案您可以遍历所有顶点并使用 sideEffect 更新它们的 type 属性。例如: g.V.sideEffect
gremlin - 在 Gremlin 中的现有节点之间添加边
我是 Gremlin 的新手，只是想建立一个基本的图表。我已经能够在新顶点上做一个基本的 addEdge，即 gremlin> v1 = g.addVertex() ==>v[200004] grem
gremlin - 合并来自 Gremlin 中多个查询的结果
假设我想从我的数据库中获取一些顶点: g.V(1, 2, 3) 然后我有另一组顶点: g.V(4, 5, 6) 想象一下，这不仅仅是 g.V() ，但是一些更复杂的遍历来获取我的顶点。但是遍历必须从V
gremlin - TinkerPop gremlin 仅计算路径中的顶点()
当我查询路径时，例如: g.V(1).inE().outV().inE().outV().inE().outV().path() path()中既有顶点也有边，请问有没有办法只计算路径中的顶点数而忽略
gremlin - Python Gremlin 中的顶点未更新
在 Neptune 工作台上使用 python gremlin，我有两个功能: 第一个添加一个带有一组属性的Vertex，并返回遍历操作的引用第二个增加了遍历操作。出于某种原因，第一个函数的操作被
gremlin - 如何在 Gremlin 中查找同一天参加同一研讨会的人员的边缘列表？
我想创建一个显示连接和连接强度的边缘列表。此示例图包含 4 个人以及他们参加研讨会 A 和 B 的信息，包括他们参加的天数和他们停留的小时数。我想通过研讨会节点建立联系，如果他们在同一天参加同一个研讨
gremlin - 在 Gremlin 中查找子树差异
我在 gremlify 上描述了这里的图表.所以我有四种类型的顶点:内容、用户、组和视频。 Content 和 Group 作为容器，User 和 Video 是叶子。此外，我在组和用户、组和内容、组
gremlin - 有没有办法在 Gremlin 中反转列表？
Gremlin 查询通常使用或生成列表。有时希望能够反转列表。目前 Gremlin 没有 reverse步骤，因此您不能执行以下操作: g.inject(['A','B','C','D']).reve
gremlin - 比较 Gremlin 的属性
我有一个简单的图，其中 parent 和 child 是顶点。 parent 与他们的 child 有“isParentOf”关系。所有顶点都有一个属性:“familyName”。我想使用 grem
gremlin - 按 Gremlin 中的顶点分组
我有这样的结构: 组 -> 字段 -> 值和命令 g.V().hasLabel('groups').out('fields').out('values') 如何按字段和“组”顶点对这些值进行分组？
gremlin - 海王星 - 如何获得到所有具有比例权重的节点的距离 gremlin
我很难在 gremlin 中找出以下场景的查询。这是有向图(可能是循环的)。我想获得前 N 个有利节点，从节点“Jane”开始，这里的优先级定义为: favor(Jane->Lisa) = edge
gremlin - 如何使用 Gremlin 沿路径收集所有顶点和边属性
这是一个非常简单的查询: g.V('customerId').out().path() 这个的 JSON 输出是 { "requestId":"96b26c1d-d032-2004-d36e-
gremlin - 通过 Gremlin 查询从节点返回属性子集
有没有一种方法可以使用 Gremlin 查询仅返回图节点所有属性的子集？我知道您可以使用转换管道连接属性值，但我更感兴趣的是获得结构化结果(例如 propertyName1 = value1、pro
gremlin - 正确处理 Gremlin 中的日期操作
我将 AWS Neptune Gremlin 与 gremlin_python 一起使用. 我在属性(property)中的日期按要求存储为日期时间 Neptune specs . 我使用 Pytho

首页

博学

6Ren·AI

商城

gremlin - 对来自不同顶点的属性进行分组