R语言代写生存分析可视化分析

Wesley13
• 阅读 435

完整原文链接:http://tecdat.cn/?p=5438

生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。

生存分析被用于各种领域,例如:

癌症研究为患者生存时间分析,

“事件历史分析”的社会学

在工程的“故障时间分析”。

在癌症研究中,典型的研究问题如下:

某些临床特征对患者的生存有何影响?

个人三年存活的概率是多少?

各组患者的生存率有差异吗?

基本概念

在这里,我们从定义生存分析的基本术语开始,包括:

生存时间和事件

生存功能和危险功能

癌症研究中的生存时间和事件类型

有不同类型的事件,包括:

复发

死亡

从“应对治疗”(完全缓解)到发生感兴趣事件的_时间_通常称为_生存时间_(或事件发生的时间)。

癌症研究中两个最重要的措施包括:i)死亡时间;和ii)无_复发存活时间_,其对应于治疗反应与疾病复发之间的时间。它也被称为无_病生存时间_和无_事件生存时间_。

如上所述,生存分析侧重于直到发生感兴趣事件(复发或死亡)的预期持续时间。

Kaplan-Meier生存评估

Kaplan-Meier(KM)方法是一种非参数方法,用于估计观察到的生存时间的生存概率(Kaplan和Meier,1958)。

知识管理生存曲线是知识管理生存概率与时间的关系曲线,它提供了一个有用的数据总结,可以用来估计诸如中位生存时间之类的衡量指标。

R生存分析

安装并加载所需的R包

我们将使用两个R包:

_生存_计算生存分析

_survminer_的总结和可视化生存分析结果

安装软件包

install.packages(c("survival","survminer"))

加载包

library("survival")library("survminer")

示例数据集

我们将使用生存包中提供的肺癌数据。

data("lung")head(lung)

inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss1    3  306      2  74  1      1      90      100    1175      NA2    3  455      2  68  1      0      90        90    1225      153    3 1010      1  56  1      0      90        90      NA      154    5  210      2  57  1      1      90        60    1150      115    1  883      2  60  1      0      100        90      NA      06  12 1022      1  74  1      1      50        80      513      0

inst:机构代码

时间:以天为单位的生存时间

状态:审查状态1 =审查,2 =死亡

年龄:年龄

性别:男= 1女= 2

ph.ecog:ECOG表现评分(0 =好5 =死)

ph.karno:Karnofsky表现评分(bad = 0-好= 100)由医师评定

pat.karno:Karnofsky表现评分由患者评估

膳食:餐时消耗的卡路里

wt.loss:过去六个月的体重下降

计算生存曲线:survfit()

我们要按性别来计算生存概率。

功能_survfit_()[在_存活_包]可以被用来计算Kaplan-Meier存活估计。其主要论​​点包括:

使用函数_Surv_()创建的生存对象

要计算生存曲线,请输入以下内容:

fit<-survfit(Surv(time,status)~sex,data=lung)print(fit)

Call: survfit(formula = Surv(time, status) ~ sex, data = lung)n events median 0.95LCL 0.95UCLsex=1 138    112    270    212    310sex=2  90    53    426    348    550

默认情况下,函数print()显示生存曲线的简短摘要。它显示观察次数,事件数量,中位数生存和中位数的置信限。

如果要显示生存曲线的更完整摘要,请输入以下内容:

# Summary of survival curvessummary(fit)# Access to the sort summary tablesummary(fit)$table

可视化生存曲线

我们 生成两组受试者的生存曲线。

R语言代写生存分析可视化分析

_legend.labs_更改图例标签。

R语言代写生存分析可视化分析

每组的中位生存时间表示生存概率S(t)为0.5的时间。

使用参数_xlim_可以缩短生存曲线,如下所示:

R语言代写生存分析可视化分析

请注意,可以使用参数_fun_指定三个经常使用的转换:

 R语言代写生存分析可视化分析

累积性危险是常用来估计危险概率。

 R语言代写生存分析可视化分析 ​、

Kaplan-Meier生命表:生存曲线的总结

如上所述,您可以使用函数_summary_()来获得生存曲线的完整摘要:

summary(fit)

在生存曲线已经与一个或多个变量拟合的情况下,surv_summary对象包含表示变量的额外列。这使得有可能根据地层或某些因素的组合来面对ggsurvplot的输出。

Log-Rank检验比较生存曲线:survdiff()

对_数秩检验_是比较两条或更多条生存曲线的最广泛使用的方法。零假设是两组在生存期间没有差异。 

可以使用survdiff()如下:

surv_diff<-survdiff(Surv(time,status)~sex,data=lung)surv_diff

Call:survdiff(formula = Surv(time, status) ~ sex, data = lung)N Observed Expected (O-E)^2/E (O-E)^2/Vsex=1 138      112    91.6      4.55      10.3sex=2  90      53    73.4      5.68      10.3Chisq= 10.3  on 1 degrees of freedom, p= 0.00131

存活率差异的对数秩检验给出p = 0.0013的p值,表明性别组在存活方面差异显着。

复杂的生存曲线

在本节中,我们将使用多个因素的组合计算生存曲线。接下来,我们将面向ggsurvplot()的输出结合因素

 fit2<-survfit(Surv(time,status)~sex+rx+adhere,data=colon)

使用幸存者可视化输出。下面的图显示了性别变量根据rx&adhere的值生存的曲线。

 R语言代写生存分析可视化分析

生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。

生存分析被用于各种领域,例如:

癌症研究为患者生存时间分析,

“事件历史分析”的社会学

在工程的“故障时间分析”。

在癌症研究中,典型的研究问题如下:

某些临床特征对患者的生存有何影响?

个人三年存活的概率是多少?

各组患者的生存率有差异吗?

概要

生存分析是一组数据分析的统计方法,其中感兴趣的结果变量是事件发生之前的时间。

在这篇文章中,我们演示了如何使用两个R软件包的组合来执行和可视化生存分析:_生存_(用于分析)和_生存者_(用于可视化)。

如果您有任何疑问,请在下面发表评论。   

大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服

R语言代写生存分析可视化分析 QQ:3025393450

​QQ交流群:186388004 R语言代写生存分析可视化分析

【服务场景】

科研项目; 公司项目外包;线上线下一对一培训;数据爬虫采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询

R语言代写生存分析可视化分析

欢迎选修我们的R语言数据分析挖掘必知必会课程!

R语言代写生存分析可视化分析

 

欢迎关注 微信公众号,了解更多数据干货资讯!

R语言代写生存分析可视化分析

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
2年前
Java获得今日零时零分零秒的时间(Date型)
publicDatezeroTime()throwsParseException{    DatetimenewDate();    SimpleDateFormatsimpnewSimpleDateFormat("yyyyMMdd00:00:00");    SimpleDateFormatsimp2newS
Wesley13 Wesley13
2年前
P2P技术揭秘.P2P网络技术原理与典型系统开发
Modular.Java(2009.06)\.Craig.Walls.文字版.pdf:http://www.t00y.com/file/59501950(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.t00y.com%2Ffile%2F59501950)\More.E
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
8个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这