完整原文链接:http://tecdat.cn/?p=5438
生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。
生存分析被用于各种领域,例如:
癌症研究为患者生存时间分析,
“事件历史分析”的社会学
在工程的“故障时间分析”。
在癌症研究中,典型的研究问题如下:
某些临床特征对患者的生存有何影响?
个人三年存活的概率是多少?
各组患者的生存率有差异吗?
基本概念
在这里,我们从定义生存分析的基本术语开始,包括:
生存时间和事件
生存功能和危险功能
癌症研究中的生存时间和事件类型
有不同类型的事件,包括:
复发
死亡
从“应对治疗”(完全缓解)到发生感兴趣事件的_时间_通常称为_生存时间_(或事件发生的时间)。
癌症研究中两个最重要的措施包括:i)死亡时间;和ii)无_复发存活时间_,其对应于治疗反应与疾病复发之间的时间。它也被称为无_病生存时间_和无_事件生存时间_。
如上所述,生存分析侧重于直到发生感兴趣事件(复发或死亡)的预期持续时间。
Kaplan-Meier生存评估
Kaplan-Meier(KM)方法是一种非参数方法,用于估计观察到的生存时间的生存概率(Kaplan和Meier,1958)。
知识管理生存曲线是知识管理生存概率与时间的关系曲线,它提供了一个有用的数据总结,可以用来估计诸如中位生存时间之类的衡量指标。
R生存分析
安装并加载所需的R包
我们将使用两个R包:
_生存_计算生存分析
_survminer_的总结和可视化生存分析结果
安装软件包
install.packages(c("survival","survminer"))
加载包
library("survival")library("survminer")
示例数据集
我们将使用生存包中提供的肺癌数据。
data("lung")head(lung)
inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss1 3 306 2 74 1 1 90 100 1175 NA2 3 455 2 68 1 0 90 90 1225 153 3 1010 1 56 1 0 90 90 NA 154 5 210 2 57 1 1 90 60 1150 115 1 883 2 60 1 0 100 90 NA 06 12 1022 1 74 1 1 50 80 513 0
inst:机构代码
时间:以天为单位的生存时间
状态:审查状态1 =审查,2 =死亡
年龄:年龄
性别:男= 1女= 2
ph.ecog:ECOG表现评分(0 =好5 =死)
ph.karno:Karnofsky表现评分(bad = 0-好= 100)由医师评定
pat.karno:Karnofsky表现评分由患者评估
膳食:餐时消耗的卡路里
wt.loss:过去六个月的体重下降
计算生存曲线:survfit()
我们要按性别来计算生存概率。
功能_survfit_()[在_存活_包]可以被用来计算Kaplan-Meier存活估计。其主要论点包括:
使用函数_Surv_()创建的生存对象
要计算生存曲线,请输入以下内容:
fit<-survfit(Surv(time,status)~sex,data=lung)print(fit)
Call: survfit(formula = Surv(time, status) ~ sex, data = lung)n events median 0.95LCL 0.95UCLsex=1 138 112 270 212 310sex=2 90 53 426 348 550
默认情况下,函数print()显示生存曲线的简短摘要。它显示观察次数,事件数量,中位数生存和中位数的置信限。
如果要显示生存曲线的更完整摘要,请输入以下内容:
# Summary of survival curvessummary(fit)# Access to the sort summary tablesummary(fit)$table
可视化生存曲线
我们 生成两组受试者的生存曲线。
_legend.labs_更改图例标签。
每组的中位生存时间表示生存概率S(t)为0.5的时间。
使用参数_xlim_可以缩短生存曲线,如下所示:
请注意,可以使用参数_fun_指定三个经常使用的转换:
的累积性危险是常用来估计危险概率。
、
Kaplan-Meier生命表:生存曲线的总结
如上所述,您可以使用函数_summary_()来获得生存曲线的完整摘要:
summary(fit)
在生存曲线已经与一个或多个变量拟合的情况下,surv_summary对象包含表示变量的额外列。这使得有可能根据地层或某些因素的组合来面对ggsurvplot的输出。
Log-Rank检验比较生存曲线:survdiff()
对_数秩检验_是比较两条或更多条生存曲线的最广泛使用的方法。零假设是两组在生存期间没有差异。
可以使用survdiff()如下:
surv_diff<-survdiff(Surv(time,status)~sex,data=lung)surv_diff
Call:survdiff(formula = Surv(time, status) ~ sex, data = lung)N Observed Expected (O-E)^2/E (O-E)^2/Vsex=1 138 112 91.6 4.55 10.3sex=2 90 53 73.4 5.68 10.3Chisq= 10.3 on 1 degrees of freedom, p= 0.00131
存活率差异的对数秩检验给出p = 0.0013的p值,表明性别组在存活方面差异显着。
复杂的生存曲线
在本节中,我们将使用多个因素的组合计算生存曲线。接下来,我们将面向ggsurvplot()的输出结合因素
fit2<-survfit(Surv(time,status)~sex+rx+adhere,data=colon)
使用幸存者可视化输出。下面的图显示了性别变量根据rx&adhere的值生存的曲线。
生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。
生存分析被用于各种领域,例如:
癌症研究为患者生存时间分析,
“事件历史分析”的社会学
在工程的“故障时间分析”。
在癌症研究中,典型的研究问题如下:
某些临床特征对患者的生存有何影响?
个人三年存活的概率是多少?
各组患者的生存率有差异吗?
概要
生存分析是一组数据分析的统计方法,其中感兴趣的结果变量是事件发生之前的时间。
在这篇文章中,我们演示了如何使用两个R软件包的组合来执行和可视化生存分析:_生存_(用于分析)和_生存者_(用于可视化)。
如果您有任何疑问,请在下面发表评论。
大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务
统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服)
【服务场景】
科研项目; 公司项目外包;线上线下一对一培训;数据爬虫采集;学术研究;报告撰写;市场调查。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询
欢迎选修我们的R语言数据分析挖掘必知必会课程!
欢迎关注 微信公众号,了解更多数据干货资讯!