gpt4 book ai didi

python - 我可以计算 p 值并使用 plotly 添加星号吗?

转载 作者:行者123 更新时间:2023-12-05 05:48:49 24 4
gpt4 key购买 nike

例如,我们的数据集 tips 包含列 daytotal_billsex。我想可视化箱线图(x=day,y=total_bill,color=sex)。之后我想计算女性和男性参与者之间每天的测试和 p 值。如果 p 值 < 0.05,我想添加星号。我怎样才能更改下面的代码?

在这个例子中,不同日子之间没有做爱的比较:

from scipy import stats
import plotly.express as px
import plotly.graph_objects as go

tips = px.data.tips()

fig = go.Figure()
for day in ['Thur','Fri','Sat','Sun']:
fig.add_trace(go.Box(
y=tips[tips['day'] == day].total_bill,
name=day,
boxpoints='outliers'
))

def add_pvalue_annotation(days, y_range, symbol=''):
"""
arguments:
days --- a list of two different days e.g. ['Thur','Sat']
y_range --- a list of y_range in the form [y_min, y_max] in paper units
"""
pvalue = stats.ttest_ind(
tips[tips['day']==days[0]].total_bill,
tips[tips['day']==days[1]].total_bill)[1]
# print(pvalue)
if pvalue >= 0.05:
symbol = 'ns'
if pvalue < 0.05:
symbol = '*'
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[0], y0=y_range[0], x1=days[0], y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[0], y0=y_range[1], x1=days[1], y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=days[1], y0=y_range[1], x1=days[1], y1=y_range[0],
line=dict(
color="black",
width=2,
)
)
## add text at the correct x, y coordinates
## for bars, there is a direct mapping from the bar number to 0, 1, 2...
bar_xcoord_map = {x: idx for idx, x in enumerate(['Thur','Fri','Sat','Sun'])}
fig.add_annotation(dict(font=dict(color="black",size=14),
x=(bar_xcoord_map[days[0]] + bar_xcoord_map[days[1]])/2,
y=y_range[1]*1.03,
showarrow=False,
text=symbol,
textangle=0,
xref="x",
yref="paper"
))

add_pvalue_annotation(['Thur','Sun'],[1.01,1.02])
add_pvalue_annotation(['Thur','Sat'],[1.05,1.06])

fig.show()

my_plot

我在这里找到了这个有用的例子:Plotly box p-value significant annotation

最佳答案

当您设置箱线图时,使用 plotly.express 中的 px.box 会很有用,因为您可以传递参数 color="sex" 来创建每天每个性别的两个箱线图。您还需要对 tips DataFrame 进行排序,以便按顺序绘制星期几。

然后可以修改 add_pvalue_annotation 函数,以便我们计算每天男性和女性之间 t 检验的 p 值(而不是不同日期提示之间的 t 检验一周中的)。您还需要更改注释的起点和终点,以便它们位于同一天的“男性”和“女性”类别之间,而不是在不同的日期之间。

对于 tips 数据集,我在一周中的每一天都对男性和女性进行了 t 检验(例如男性和女性在周四,男性和女性在周五...),并且没有一个 p 值低于 0.05。

但是,为了证明 add_pvalue_annotation 函数会正确放置注释,我将 p 值阈值设置为 0.15,以便周五男性和女性之间的 p 值(p- value = 0.13) 将在图表上进行注释。

from scipy import stats
import plotly.express as px
import plotly.graph_objects as go
from pandas.api.types import CategoricalDtype

tips = px.data.tips()
cat_order = ['Thur', 'Fri', 'Sat', 'Sun']
cat_weekdays = CategoricalDtype(cat_order, ordered=True)
tips['day'] = tips['day'].astype(cat_weekdays)
tips.sort_values(by='day', inplace=True)

fig = px.box(tips, x="day", y="total_bill", color="sex")

def add_pvalue_annotation(day, y_range, symbol='', pvalue_th=0.05):
"""
arguments:
days --- the day for which you want to calculate the p-value on a t-test between Men and Women (e.g. 'Thur')
x_coordinate --- the x-coordinate
y_range --- a list of y_range in the form [y_min, y_max] in paper units
"""
pvalue = stats.ttest_ind(
tips[(tips['day']==day) & (tips['sex'] == 'Male')].total_bill,
tips[(tips['day']==day) & (tips['sex'] == 'Female')].total_bill
)[1]

# print(f"pvalue between men and women on {day}: {pvalue}")
# if pvalue >= pvalue_th:
# symbol = 'ns'

if pvalue < pvalue_th:
## for bars, there is a direct mapping from the bar number to 0, 1, 2...
bar_xcoord_map = {x: idx for idx, x in enumerate(cat_order)}
x_coordinate = bar_xcoord_map[day]
x_start, x_end = x_coordinate - 0.2, x_coordinate + 0.2
symbol = '*'
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_start, y0=y_range[0], x1=x_start, y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_start, y0=y_range[1], x1=x_end, y1=y_range[1],
line=dict(
color="black",
width=2,
)
)
fig.add_shape(type="line",
xref="x", yref="paper",
x0=x_end, y0=y_range[1], x1=x_end, y1=y_range[0],
line=dict(
color="black",
width=2,
)
)
## add text at the correct x, y coordinates
fig.add_annotation(dict(font=dict(color="black",size=14),
x=x_coordinate,
y=y_range[1]*1.03,
showarrow=False,
text=symbol,
textangle=0,
xref="x",
yref="paper"
))

for day in cat_order:
add_pvalue_annotation(day, [1.01,1.02], pvalue_th=0.15)

fig.show()

enter image description here

关于python - 我可以计算 p 值并使用 plotly 添加星号吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70757929/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com