StataNow更新之区间删失多事件数据的边际Cox PH模型

时间:2025-01-03点击次数:9

2024.12.232StataNow™知乎

需要从多种类型的事件(如糖尿病和高血压的发病)中分析事件时间吗?不知道确切的事件发生时间?使用新的stmgintcox命令来分析这种区间删失的多事件数据,并考虑不同事件之间的事件时间可能存在的相关性。评估比例风险假设。对所有事件的共同协变量效应进行强有力的检验。对协变量生存函数、风险函数和其他函数作图以及更多!该命令现在是StataNow™的一部分。


区间删失多事件数据通常出现在纵向研究中,因为每个研究对象可能经历几种类型的事件,并且这些事件不会被直接观测到,但已知会在一定时间间隔内发生。这种数据类型出现在许多领域,包括医学、流行病学、生物学、社会学等。例如,研究慢性疾病的流行病学家可能会在不同的医生就诊过程中收集患有多种疾病(如心脏病和代谢性疾病)的患者的数据。同样,社会学家可能会定期进行调查,记录重大生活事件,如工作变化和婚姻。在生态学中,研究人员可以通过定期观察来监测动物的繁殖周期,如筑巢和分娩。在这些研究中,研究人员通常对评估某些因素对事件时间的影响感兴趣。然而,分析区间删失多事件数据是具有挑战性的,因为没有一个事件时间是被精确观测到的,而且不同事件时间之间的依赖结构往往是未知的。


边际比例风险模型可以用来分析区间删失的多事件数据。这些模型不需要对不同事件之间的依赖结构进行建模,就可以提供更稳健的推断。它们还产生了可以解释为群体平均效应的参数。此外,它们比随机效应模型更快。


在Stata 17中,我们引入了tintcox命令来拟合单变量区间删失事件时间数据的真正半参数Cox模型。在Stata 18中,我们扩展了stintcox的功能以支持时变协变量( TVCs )。新的stmgintcox命令适用于区间删失多事件数据的边际比例风险模型。您可以将此命令用于每个事件数据的单个或多个记录,并且它支持所有事件或特定事件的TVC。它还提供了灵活的方法来*具有特定事件协变量的模型。在拟合模型后,可以使用比经典的多元Wald检验更强大的检验来估计和检验协变量在所有事件时间上的平均效应。您还可以生成特定事件的预测,创建协变量调整后的幸存者和其他函数,并在stmgintcox之后生成拟合优度图。

示例

为每个事件间隔的单次记录删失数据拟合模型

考虑一个基于Xu,Zeng,和 Lin ( 2023 )描述的社区动脉粥样硬化风险(ARIC )研究模拟的虚拟数据集。该数据集包含200名受试者,美国每4个社区中就有一个。参与者随时间推移进行随访,并在多次随访检查中对糖尿病和高血压进行评估。由于受试者只是定期接受检查,因此没有观察到这些疾病的确切发病时间,但众所周知,这些疾病发生在医生就诊的间隔时间内。ltime和rtime两个变量分别通过记录事件发生前的最后一次检查时间和事件发生后的第一次检查时间来捕捉这一信息。


我们希望找出影响糖尿病和高血压发病时间的因素。感兴趣的因素包括三个人口统计学变量race,性别(male)和 community-以及五个基线危险因素:年龄( age ),体重指数( bmi ),血糖水平( glucose ),收缩压( sysbp )和舒张压( diabp )。该数据集包含每个受试者的每个事件的一条记录,事件时间信息记录为间隔数据,称为每个事件间隔的单记录删失数据。以下是91和92名受试者数据集的一个子集:
1

我们可以拟合一个边际Cox比例风险模型,其中糖尿病和高血压的发病时间取决于上述因素。在每个事件一条记录的格式中,必须*id()、event()和interval()选项。该命令执行密集的计算,可能需要更长的运行时间。
2
系数表上方的标题给出了删失信息的汇总。在糖尿病的输出中,我们注意到白人患糖尿病的风险较低。此外,较高的体重指数和升高的血糖水平与较高的糖尿病风险相关。在高血压的输出中,我们看到收缩压和舒张压越高,患高血压的风险就越大。



事件特定协变量拟合模型

述模型可以看出,体重指数和血糖水平是糖尿病的关键危险因素,而不是高血压的关键危险因素。另一方面,收缩压和舒张压是高血压的重要因素,但不是糖尿病的重要因素。因此,我们可以使用不同的协变量集合来模拟这两个事件。我们还使用了nolog选项来隐藏迭代日志,favorspeed选项来加速计算。
3

因为age, male, community, 和 race 是两个事件的共同协变量,我们也可以通过使用共同协变量和特定事件协变量的组合来*模型:
3-1
上述两种规格都会给我们相同的结果。



估计和检验协变量在所有事件中的平均效应

在拟合了上述模型后,假设我们想检验age 对所有事件的影响都为零的假设。我们可以使用estat common命令估计 age在所有事件中的较优加权平均效应,并进行z检验,以确定在原假设下这种平均效应是否为零。

4

我们不能拒绝原假设,即所有事件的age加权平均效应为零(p值为0.518)。当不同事件之间的效果相似时,该检验比传统的多元Wald检验更强大,后者可以用test命令执行

绘制生存函数



我们可以用stcurve来绘制估计的生存函数。默认情况下,带有生存选项的stcurve命令在每个事件的协变量总体均值上评估 survival 函数,并将两个事件的生存函数绘制为子图。
5
我们可以添加sepevents选项,要求在单独的图形上显示每个事件的估计幸存者函数。

 

如果我们希望比较不同社区的糖尿病患者的平均生存曲线,我们可以使用at()选项为community *多个值,并在event()选项中*事件值标签" Diabetes "。
6
上述生存曲线表明,Forsyth (蓝线)和 Minneapolis (绿线)的普通人患糖尿病的风险相似,而 Washington (黄线)和 Jackson (红线)的普通人患糖尿病的风险较低。


通过拟合优度图评估模型整体拟合情况

我们可以使用estat gofplot命令生成特定事件的拟合优度图,并直观地评估整体模型的拟合情况。estat gofplot根据每个事件的Cox - Snell - like残差计算累积风险函数的经验估计值,并将由此产生的累积风险率与残差本身进行绘图。如果模型拟合数据,则这些图预计将保持在参考线附近。
7
默认情况下,estat gofplot将所有特定事件的拟合优度图显示为单个图中的子图。左侧的图表明边际Cox比例风险模型很好的拟合了对糖尿病的数据。右边的图表明,边际Cox模型对高血压的数据拟合得较好,由于离群值偏离参考线,所以尾部除外。


每个事件间隔的多次记录删失数据拟合模型

间删失数据也可以以每个事件的多条记录格式记录。在这种格式中,受试者的每个事件可能包含多个记录,每个记录有多个检查时间,每个检查时间都有潜在的TVC。在这里,我们使用了之前数据集的扩展版本。包含了所有的基线协变量以及四个时变协变量:bmi,glucose,sysbp和diabp。并记录检查时间(time)及自上次检查以来是否发生了事件(status)。以下是受试者91和92的数据集子集:
8

我们使用stmgintcox拟合边际Cox比例风险模型,其中事件(糖尿病、高血压)发生的时间取决于基线协变量age, male, community和 race 以及TVCs bmi,glucose,sysbp和diabp。在每个事件的多记录格式中,必须*id()、event()、time()和status()选项。我们还包括detail选项,以获得每个事件的详细审查信息。
9
在考虑了随时间变化的危险因素后,我们发现血糖水平升高、较高的体重指数和收缩压升高患糖尿病的风险较高。白人患糖尿病的风险较低。此外,收缩压和舒张压水平的升高与患高血压的风险增加有关。


 
参考文献
Xu, Y., D. Zeng, and D. Lin. 2023. Marginal proportional hazards models for multivariate interval-censored data. Biometrika 110: 815–830.
 
The ARIC investigators. 1989. The Atherosclerosis Risk in Communities (ARIC) study: Design and objectives. American Journal of Epidemiology 129: 687–702. 

北京天演融智软件有限公司(科学软件网)是Stata软件在中国的授权经销商,为中国的软件用户提供优质的软件销售和培训服务。 


http://www.kxrjsoft.com.cn

上一篇:石景山SPSSPRO
下一篇:海淀GAMS流程
产品推荐

Development, design, production and sales in one of the manufacturing enterprises

您是第3015046位访客
版权所有 ©2025-01-06 京ICP备10040123号

北京天演融智软件有限公司 保留所有权利.

技术支持: 八方资源网 免责声明 管理员入口 网站地图