- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
使用以下包含二进制 0/1 变量的测试数据帧:
test_df = pd.DataFrame([
[0, 0, 0, 1],
[1, 0, 1, 1],
[0, 0, 0, 1],
[1, 0, 1, 0],
[0, 0, 0, 0],
[1, 0, 1, 0]], columns=["y", "age_catg", "race_catg", "sex_catg"])
我想使用 pd.crosstab()
函数创建 y 与age_catg、race_catg、sex_catg 的双向表,以便检查 y 值在预测变量类别。
我的实际数据框包含数千个预测变量,因此我宁愿使用 # 列,而不是明确命名年龄、种族和性别预测变量。但是,我仍然对 Python 中的行和列引用感到困惑 - 例如以下代码不起作用:
desc_tab = pd.crosstab(test_df[:,1], test_df[:,2:4])
desc_tab
最佳答案
要使用整数索引,您需要 iloc
方法:
pd.crosstab(test_df.iloc[:, 1], test_df.iloc[:, 2])
输出:
race_catg 0 1
age_catg
0 3 3
如果将多个数组/系列放入列表中,则可以将它们传递到列或行:
pd.crosstab(test_df.iloc[:, 1], [test_df.iloc[:, 2], test_df.iloc[:, 3]])
race_catg 0 1
sex_catg 0 1 0 1
age_catg
0 1 2 2 1
如果你想通过索引批量定义列(list是Python中的保留字,请不要使用它):
cols = [test_df.iloc[:, i] for i in [2, 3]]
pd.crosstab(test_df.iloc[:, 1], cols)
输出:
race_catg 0 1
sex_catg 0 1 0 1
age_catg
0 1 2 2 1
关于python - Python新手问题: How to create crosstabs across multiple predictor variables and outcome variable,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53159108/
我目前正在处理具有 2 列的数据框(在 pandas 中):第一列是一些数字量化数据,例如体重、某天花费的金额、GPA 等., 第二列是日期值,即添加相应列 1 条目的日期。 我想知道,在 Pytho
我无法使 ROC 函数工作,出现错误“预测器必须是数字或有序”。 我浏览了其他帖子,但没有解决我的问题。任何帮助都受到高度赞赏。 "Get data" flying=dget("https://www
我是使用python的新手,我想运行此代码,但出现此错误。 码: # construct the argument parse and parse the arguments ap = argpars
所以我尝试在 R 中运行“genie3”算法(引用:http://homepages.inf.ed.ac.uk/vhuynht/software.html),它使用“randomForest”方法。
我有一个锦标赛分支预测器模拟作为作业。该程序模拟微处理器中的锦标赛分支预测器。我想我做的一切都是对的。我无法追踪问题。我陷入了段错误。 /* Shreyas Kale Computer Archite
我是 python 新手,找不到答案。引用消息末尾的代码,我能知道下面一行中的“for item, total in totals.items()”是什么意思吗? rankings = [(total
我有以下变量,如果它们是宽格式,我会计算类似 lm(happiness ~ personality_trait*condition) 但是我的数据是长格式的。 我想这将是一个重复测量模型,但我不确定。
我是 R 新手,遇到了这个问题:我想比较两种预测技术(支持向量机和神经网络),将它们应用于某些数据,并且我想比较它们的性能。为此,我使用 ROC 曲线。该代码应该计算 ROC 曲线下的面积,但它不起作
我想使用 pandas OLS 函数为我的数据系列拟合趋势线。有谁知道如何使用 pandas 系列中的日期时间索引作为 OLS 中的预测变量? 例如,假设我有一个简单的时间序列: >>> ts 200
请求帮助解决以下错误。 An error occurred (ModelError) when calling the InvokeEndpointoperation: Received client
我一直在尝试通过我的 vm 实例上的控制台将我的模型部署到 AI 平台进行预测,但我收到错误“(gcloud.beta.ai-platform.versions.create)创建版本失败。模型错误检
到目前为止,我使用的是 tf.contrib.predictor.from_saved_model加载 SavedModel ( tf.estimator 模型类)。然而,不幸的是,这个功能在 Ten
我正在尝试使用 rms 包从 R 中的逻辑回归绘制列线图,但目前我遇到一个问题:确实,我可以获得列线图,但“线性预测器”轴的范围从 -2.5 到 + 3,我想知道是否可以使其范围从 0 到 1(即 Y
使用以下包含二进制 0/1 变量的测试数据帧: test_df = pd.DataFrame([ [0, 0, 0, 1], [1, 0, 1, 1], [0, 0, 0, 1
我已经安装了逻辑回归模型,该模型可以根据vs(mpg数据集)预测二进制结果mtcars。该图如下所示。如何确定任何特定mpg值的vs值?例如,当mpg的概率为0.50时,我有兴趣找出vs的值是多少。感
我的问题:删除带有 NA 的预测变量并考虑排除该预测变量的完整案例的最有效方法是什么? 问题源自以下 NA 的回归情况,其中 Ozone(大部分)和 Solar.R 中缺少值>. data(airqu
所以我有一个训练集,其中一个属性的域如下: A = {Type1, Type2, Type3, ... ,Type5} 如果域保持这种形式,我就无法应用线性回归,因为数学假设不可能成立,例如: H =
概览 我正在按照教程(见下文)从袋装树、随机森林、提升树和一般线性模型中找到最适合的模型。 教程(参见下面的示例) https://bcullen.rbind.io/post/2020-06-02-t
我是一名优秀的程序员,十分优秀!