gpt4 book ai didi

algorithm - 仅网络贝叶斯分类器的伪代码

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:23:55 25 4
gpt4 key购买 nike

我正在尝试使用 igraph 为单变量网络数据实现分类工具包和 python .

但是,我的问题实际上更多是关系分类领域的算法问题,而不是编程问题。

我正在关注 Classification in Networked Data纸。

我很难理解这篇论文所指的“仅网络贝叶斯分类器”(NBC)是什么,它是论文中解释的关系分类器之一。

我实现了 Naive Bayes之前使用词袋特征表示的文本数据分类器。和Naive Bayes的想法我对文本数据很清楚。

我认为这种方法(NBC)是将相同的想法简单地转化为关系分类领域。但是,我对方程中使用的符号感到困惑,所以我无法弄清楚发生了什么。我也对论文 here 中使用的符号有疑问.

NBC 在 the paper 上的第 14 页中进行了解释。 ,

enter image description here

摘要:

我需要 paper 中解释的“仅网络贝叶斯分类器”(NBC)的伪代码,第 14 页。

伪代码符号:

  • 打个电话vs图中的顶点列表。 len(vs)
    长度。 vs[i]是第 i 个顶点。
  • 假设我们有一个单变量和二元场景,即 vs[i].class要么是 01并且节点没有其他给定的特征。
  • 假设我们之前运行了一个本地分类器,以便每个节点都有一个初始标签,由本地分类器计算。我只对关系分类器部分感兴趣。
  • 打个电话v我们试图预测的顶点,以及 v.neighbors()v 的邻居的顶点列表.
  • 让我们假设所有的边权重都是 1 .

  • 现在,我需要伪代码:
    def NBC(vs, v):
    # v.class is 0 or 1
    # v.neighbors is list of neighbor vertices
    # vs is the list of all vertices

    # This function returns 0 or 1

    编辑:

    为了让你的工作更轻松,我做了这个 example .我需要最后两个方程的答案。

    最佳答案

    用言语...

    节点x_i的概率属于类c等于:

  • x_i邻域的概率(称为 N_i )如果 x确实属于类(class)c ;乘以...
  • 类的概率c本身;除以...
  • 邻域的概率N_i (节点 x_i )本身。

  • 至于邻域的概率 N_i (来自 x_i)如果 x属于类 c就其而言,它等于:
  • 一个 product有一定的概率; (哪个概率?)
  • 邻域 ( v_j ) 的某个节点 ( N_i ) 属于类 c 的概率如果 x确实属于类(class)c
  • (提高到连接正在检查的节点和正在分类的节点的边的权重……但您对此不感兴趣……还没有)。 (我认为这里的符号有点偏离,为什么他们定义 v_j 然后从不使用它?......无论如何)。
  • 最后,乘以 product of some probability一些 1/Z .为什么?因为所有 p s 是 probabilities因此位于 0 到 1 的范围内,但权重 w可以是任何东西,这意味着最终计算出的概率可能会超出范围。
  • 一些x_i的概率属于一个类 c鉴于
    来自其邻居的证据是后验概率。 (之后
    东西……这是什么东西? ...请见下文)
  • 邻域出现概率N_i如果 x_i属于类(class)c是可能性。
  • 类的概率c本身就是先验概率。
    在某事之前……这是什么东西?证据。之前的
    告诉你没有任何证据的类的概率
    呈现,但后验告诉你特定的概率
    事件(即 x_i 属于 c )鉴于其证据
    邻里。

  • 先验,可以是主观的。也就是说,通过有限的观察得出或者是一个知情的意见。换句话说,它不一定是人口分布。它只需要足够准确,而不是绝对已知。

    这种可能性更具挑战性。尽管我们在这里有一个公式,但必须从足够大的人口或尽可能多的关于所观察现象的“物理”知识来估计可能性。

    在乘积(表示可能性的第二个等式中的大写字母 Pi)中,您有一个条件。如果 x,则条件是邻域节点属于某个类的概率。属于类(class) c .

    Naive Bayesian Classifier的典型应用中,即 document classification (例如垃圾邮件),条件是 an email is spam GIVEN THE APPEARANCE OF SPECIFIC WORDS IN ITS BODY派生 通过一个巨大的观察数据库,或者,一个巨大的电子邮件数据库,我们 真的,绝对知道他们属于哪个类(class)。换句话说,我必须知道垃圾邮件是什么样子的,最终, 大多数垃圾邮件汇聚成一些共同的主题(我是某位银行官员,我有一个赚钱的机会给你,给我你的银行详细信息,让我电汇给你,让你变得富有......)。

    没有这些知识,我们就不能使用贝叶斯规则。

    所以,回到你的具体问题。在您的 PDF 中,您在产品的派生中有一个问号。

    没错。

    所以这里真正的问题是:你的图表/数据的可能性有多大?

    (... 你打算从哪里推导出来?(显然,要么是大量已知的观察 关于该现象的一些知识。例如,可能性是多少?一个节点是 被感染 给定它的邻居的一部分也被感染))。

    我希望这会有所帮助。

    关于algorithm - 仅网络贝叶斯分类器的伪代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31176551/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com