- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想实现基于paper的算法的分类。我有一个 J48
(C4.5) 决策树(下面提到的代码)。我想在数据集上运行几次 (I_max
) 并计算所有整体的 C* = 类成员概率。如此处和论文第 8 页所述。
import numpy as np
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn import tree
url="https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data"
c=pd.read_csv(url, header=None)
X = c.values[:,1:8]
Y = c.values[:,0]
X_train, X_test, y_train, y_test = train_test_split( X, Y, test_size = 0.3, random_state = 100)
clf_entropy = DecisionTreeClassifier(criterion = "entropy", random_state = 100,
max_depth=3, min_samples_leaf=5)
clf_entropy.fit(X_train, y_train)
probs = clf_entropy.predict_proba(X_test)
probs
最佳答案
这是我根据上述论文中提出的算法实现的装饰。请随意改进解决方案。
class EnsembleClasifier():
def __init__(self,base_classifier,labels):
self.classifier = [base_classifier]
self.labels = labels
def add_classifier(self,classifier):
self.classifier.append(classifier)
def remove_last_classifier(self):
self.classifier.pop(-1)
def predict_proba(self,X):
return np.array([clf.predict_proba(X) for clf in self.classifier]).sum(axis=0)/len(self.classifier)
def predict(self,X):
return labels[np.argmax(self.predict_proba(X),axis=1)]
def error(self,X,y):
return 1 - accuracy_score(y,ensembleClasifier.predict(X))
class Artificial_data():
def __init__(self,X,y,dtypes):
self.dtypes = {}
self._generator = {}
self.labels = y.unique()
for c,dtype in zip(X.columns,dtypes):
self.dtypes[c] = dtype
if dtype == 'numeric':
self._generator[c] = {'mean':X[c].mean(),'std':X[c].std()}
else:
unique_values = X[c].value_counts() / X.shape[0]
self._generator[c] = {'values':unique_values.index,'prob':unique_values.values}
def sample_generator(self,ensembleClasifier,nb_samples=1):
syn_X = pd.DataFrame()
for c in self.dtypes.keys():
if self.dtypes[c] == 'numeric':
syn_X[c] = np.random.normal(self._generator[c]['mean'],self._generator[c]['std'],nb_samples)
else:
syn_X[c] = np.random.choice(self._generator[c]['values'],p=self._generator[c]['prob'],
size=nb_samples,replace=True)
p_hat = ensembleClasifier.predict_proba(syn_X)
p_hat[p_hat==0] = 1e-5
inverse_p = 1/p_hat
new_p = inverse_p / inverse_p.sum(axis=1)[:, np.newaxis]
syn_y = [np.random.choice(self.labels,p=new_p[i]) for i in range(nb_samples)]
return syn_X,syn_y
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn import datasets
iris = datasets.load_iris()
X, y = iris.data, iris.target
X_train_base, X_test, y_train_base, y_test = train_test_split( pd.DataFrame(X), pd.Series(y),
test_size = 0.3, random_state = 100)
# dtypes=['numeric' for _ in range(7)] + ['nominal'] #use this for abalone dataset
dtypes=['numeric' for _ in range(4)]
np.random.seed(1)
artifical_data = Artificial_data(X_train_base,y_train_base,dtypes)
c_size = 15
i_max = 300
R_size = len(X_train_base)
i = 1
trails =1
labels = np.unique(y_train_base)
clf_entropy = DecisionTreeClassifier(random_state = 1, max_depth=2)
clf_entropy.fit(X_train_base, y_train_base)
ensembleClasifier = EnsembleClasifier(clf_entropy,labels)
error_bst = ensembleClasifier.error(X_train_base,y_train_base)
while (i<c_size and trails<i_max):
X_syn,y_syn =artifical_data.sample_generator(ensembleClasifier,R_size)
X_train=pd.concat([X_train_base,X_syn],axis=0)
y_train=np.append(y_train_base,y_syn,axis=0)
C_prime=DecisionTreeClassifier( random_state = 1, max_depth=2)
C_prime.fit(X_train, y_train)
ensembleClasifier.add_classifier(C_prime)
error_i = ensembleClasifier.error(X_train_base,y_train_base)
if error_i <= error_bst:
print('improvement')
error_bst = error_i
print(error_i)
i += 1
else:
ensembleClasifier.remove_last_classifier()
trails +=1
关于python - 在 python 中从一棵决策树 (J48) 分类转换为集成,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53987391/
关于 B 树与 B+ 树,网上有一个比较经典的问题:为什么 MongoDb 使用 B 树,而 MySQL 索引使用 B+ 树? 但实际上 MongoDb 真的用的是 B 树吗?
如何将 R* Tree 实现为持久(基于磁盘)树?保存 R* 树索引或保存叶值的文件的体系结构是什么? 注意:此外,如何在这种持久性 R* 树中执行插入、更新和删除操作? 注意事项二:我已经实现了一个
目前,我正在努力用 Java 表示我用 SML 编写的 AST 树,这样我就可以随时用 Java 遍历它。 我想知道是否应该在 Java 中创建一个 Node 类,其中包含我想要表示的数据,以及一个数
我之前用过这个库http://www.cs.umd.edu/~mount/ANN/ .但是,它们不提供范围查询实现。我猜是否有一个 C++ 范围查询实现(圆形或矩形),用于查询二维数据。 谢谢。 最佳
在进一步分析为什么MySQL数据库索引选择使用B+树之前,我相信很多小伙伴对数据结构中的树还是有些许模糊的,因此我们由浅入深一步步探讨树的演进过程,在一步步引出B树以及为什么MySQL数据库索引选择
书接上回,今天和大家一起动手来自己实现树。 相信通过前面的章节学习,大家已经明白树是什么了,今天我们主要针对二叉树,分别使用顺序存储和链式存储来实现树。 01、数组实现 我们在上一节中说过,
书节上回,我们接着聊二叉树,N叉树,以及树的存储。 01、满二叉树 如果一个二叉树,除最后一层节点外,每一层的节点数都达到最大值,即每个节点都有两个子节点,同时所有叶子节点都在最后一层,则这个
树是一种非线性数据结构,是以分支关系定义的层次结构,因此形态上和自然界中的倒挂的树很像,而数据结构中树根向上树叶向下。 什么是树? 01、定义 树是由n(n>=0)个元素节点组成的
操作系统的那棵“树” 今天从一颗 开始,我们看看如何从小树苗长成一颗苍天大树。 运转CPU CPU运转起来很简单,就是不断的从内存取值执行。 CPU没有好好运转 IO是个耗费时间的活,如果CPU在取值
我想为海洋生物学类(class)制作一个简单的系统发育树作为教育示例。我有一个具有分类等级的物种列表: Group <- c("Benthos","Benthos","Benthos","Be
我从这段代码中删除节点时遇到问题,如果我插入数字 12 并尝试删除它,它不会删除它,我尝试调试,似乎当它尝试删除时,它出错了树的。但是,如果我尝试删除它已经插入主节点的节点,它将删除它,或者我插入数字
B+ 树的叶节点链接在一起。将 B+ 树的指针结构视为有向图,它不是循环的。但是忽略指针的方向并将其视为链接在一起的无向叶节点会在图中创建循环。 在 Haskell 中,如何将叶子构造为父内部节点的子
我在 GWT 中使用树控件。我有一个自定义小部件,我将其添加为 TreeItem: Tree testTree = new Tree(); testTree.addItem(myWidget); 我想
它有点像混合树/链表结构。这是我定义结构的方式 struct node { nodeP sibling; nodeP child; nodeP parent; char
我编写了使用队列遍历树的代码,但是下面的出队函数生成错误,head = p->next 是否有问题?我不明白为什么这部分是错误的。 void Levelorder(void) { node *tmp,
例如,我想解析以下数组: var array1 = ["a.b.c.d", "a.e.f.g", "a.h", "a.i.j", "a.b.k"] 进入: var json1 = { "nod
问题 -> 给定一棵二叉树和一个和,确定该树是否具有从根到叶的路径,使得沿路径的所有值相加等于给定的和。 我的解决方案 -> public class Solution { public bo
我有一个创建 java 树的任务,它包含三列:运动名称、运动类别中的运动计数和上次更新。类似的东西显示在下面的图像上: 如您所见,有 4 种运动:水上运动、球类运动、跳伞运动和舞蹈运动。当我展开 sk
我想在 H2 数据库中实现 B+ Tree,但我想知道,B+ Tree 功能在 H2 数据库中可用吗? 最佳答案 H2 已经使用了 B+ 树(PageBtree 类)。 关于mysql - H2数据库
假设我们有 5 个字符串数组: String[] array1 = {"hello", "i", "cat"}; String[] array2 = {"hello", "i", "am"}; Str
我是一名优秀的程序员,十分优秀!