处理复发事件数据的几种统计模型

天天见闻 天天见闻 2022-09-28 健康养生 阅读: 285
摘要: 对于这类数据的分析,目前较为常见的做法有两种:1)仅利用首次发生的事件和时间信息做Cox模型;2)采用广义估计方程(GEE)和随机效应模型对事件数量进行建模。AG模型可以简单理解为Cox模型在复发事件数据中的推广。复发事件可看做是个体在“健康”和“患病”两种状态间的转移,从而可以应用MSM方法。脆弱模型是一种用来解决数据非独立性问题的随机效应模型。

我们都知道,在分析危险因素和结局的相关性时,如果收集了结局事件发生时间,在满足一定条件下可以使用Cox比例风险模型。该模型可以在调整其他协变量影响下得到所关注的危险因素和结局发生的关联强度-风险比( ratio,HR)。通常情况下,如果对于纳入的个体来说,结局事件是单一的(即只发生一次),且不同个体之间事件的发生是独立的,那么Cox模型是合适的。

然而,在研究中通常还有一类数据,纳入的个体在观察期内会发生不止一次结局事件,且结局事件可以是一种(例如掉牙齿,从掉第一颗到掉光),也可以是多种(例如研究术后感染,结局可以是细菌感染、真菌感染、病毒感染等);事件之间可以有先后顺序(例如住院事件在前,死亡事件在后),也可以没有;不同类事件对应的基础风险可以相同也可以不同(例如急性心肌梗死患者出院后,罹患出血性卒中和缺血性卒中的风险不同)。最重要的是,同一个体的多个事件之间存在一定的关联,而且事件发生的风险可能随时间发生变化(例如某些疾病轻易不患,患了一次后更容易再发)。这类数据称为多失效事件数据( time data)。

其中,复发事件数据( event data)是比较特殊的一类,通常是有先后顺序,以某种事件的重复发生最为常见(也可以有多种结局事件分别重复发生的情况)。对于这类数据的分析,目前较为常见的做法有两种:1)仅利用首次发生的事件和时间信息做Cox模型;2)采用广义估计方程(GEE)和随机效应模型对事件数量进行建模。前者的问题是忽略了结局事件相关性,会导致估计值的置信区间不准确;后者虽可以解决相关性的问题,但未能充分利用时间信息。

本文将为大家介绍几种处理复发事件数据更为合适的方法,每种方法都有各自的前提假设、适用范围,希望能对大家解决这类实际问题有所帮助。

AG模型(-Gill,AG)

AG模型可以简单理解为Cox模型在复发事件数据中的推广。它同样假设不同事件的基础风险函数相同,且同一危险因素对不同事件的影响也相同。该模型由两部分组成:1. 强度函数( ):协变量如何影响具体时间点的事件风险;2. 时间依存(time-):如果先前发生的事件对后续事件的发生有关联,那么这种关联被认为是由时间依存变量体现的;如果协变量不是时间依存的,则事件的复发风险不受过去事件的影响。因此,如果事件之间的关联可以认为是由于已测量的协变量引入的,即在调整了这些协变量之后事件的发生是独立的,就可以用AG模型来解决。换句话说,如果可以合理假设事件复发的风险和过去有无发生、或发生了多少次事件无关,可以使用AG。一般来说,如果研究只是希望得到危险因素对结局的总体影响(the on the of the of a event),AG十分合适。

PWP模型(, and ,PWP)

PWP的主要思想是根据随访期间先前发生的事件数将可复发事件分层()。认为所有个体都处于第一个发生的风险中统计模型,但只有在先前中有事件的那些个体才有下一个的风险(先有1才有2统计模型,只有发生过一次事件的人才有发生后续事件的风险)。它可以评估自研究开始(time=0)以来某危险因素对第k个事件的效应;也可以同时比较同一影响因素对不同结局事件的效应, 例如可以评估自研究开始(time=0)以来某危险因素对第k-1个事件的效应和对第k事件的效应;也可以评估自k-1个事件以来它对第k个事件的效应。如果假定事件的发生会改变后续复发的风险,或者危险因素对各个事件的效应不同时,PWP更为合适。例如,事件为重复发生的病毒感染,由于首次感染后免疫力的建立,后续感染的发生会受到前次感染的影响。

需要注意的是,在实践中,事件重复次数很多的个体通常会比较少,排序靠后的中的个体数量少,会使估计值不可靠。因此通常需要事先将复发事件数限制为特定数量,超过这个次数的不纳入分析。例如把分析限制在复发4次以内,超过第4次的事件不分析。

多状态模型(Multi-state , MSM)

MSM把事件发生看作是状态的一种“转移”,例如健康➜患病。这个模型用转移强度和转移概率两个指标来描述这种状态变化,且假设这两个参数都取决于之前所有发生的历史事件情况。MSM适合处理个体在一个有限数量(通常是少量的)的特定健康状况(包括死亡)所定义的状态间转移的情况(如下图)。复发事件可看做是个体在“健康”和“患病”两种状态间的转移,从而可以应用MSM方法。MSM的一个优势是,除了可以获得通常关注的危险因素和某个事件发生(如“健康➜患病”)的关系,还可以同时计算危险因素对多个不同事件(如“健康➜患病”,“患病➜康复”这两种状态转移)的不同影响。

“多状态转移”的一个示例。进行移植治疗的血液病患者,其后续健康状况可以假设有5种情况(痊愈、死亡、基本复发、严重不良事件、严重不良事件并恢复),这些状况之间可以进行“状态转移”。基于这些转移的设定,即可应用MSM模型。

均值/速率模型( means/rates model)

均值速率模型把同一个体的所有重复发生事件视为一个单个计数过程,而不考虑个体内复发事件的时间依赖关系,较AG模型更为灵活简单。它适用于事件之间依赖关系的结构复杂且未知,并且我们不关心这种关系具体是什么时。均值速率模型得到的是危险因素和事件之间的率比(rate ratio,RR),而不是其他模型得到的HR。从数学推导上说,如果没有纳入时间依存的协变量用于考虑前期已发生的事件对未来复发的影响,均值速率模型和AG模型得到的点估计值是一样的,只是由于使用的方法不同,置信区间会不一样。

脆弱模型( model)

脆弱模型是一种用来解决数据非独立性问题的随机效应模型。脆弱()是一个潜在的无法直接观察的东西,不同个体发生事件的风险(脆弱)不一样。该模型中,这些无法用协变量描述的因素被看作是随机效应。重复事件数据可以看做是一种数据,每个个体是一个。脆弱模型假设事件之间的关联是由协变量和随机效应导致的,最常见的一种是共享脆弱模型( model;假设脆弱性在间随机,内相等)。应用时要注意个体数、事件数以及分布要求。当随机效应较大时,事件数可以少一些,否则,则需要较大的事件数才能获得稳定的估计。

总的来说,复发事件的分析是一个不算新、很实际、可选的方法比较多,但何种方法最优又没有特别一致结论的问题。一般来说,选择什么模型首先需要考虑的是需要解答什么样的科学问题,同时还要考虑事件数量、事件和事件发生的相关性假设、危险因素对事件的效应是否一致、符合生物学过程( )的假设、事件之间的相关结构( )等等。另外,不同模型的基础理论不同,前提假设不一,得到的结果也需要谨慎解读。

PS: 本文内容来源于2015年发表在 of 上的一篇文章“ : a for in ”。文中列举了两个例子,一个是评估和安慰剂相比某种药物治疗对膀胱癌患者肿瘤复发的影响,另一个是探索影响儿童急性下呼吸道感染和恢复的因素。作者分别用五种模型进行了分析,并解读了不同模型得到的结果及区别。感兴趣的小伙伴可以下载原文(见参考文献[1])学习~

参考文献:

[1] Leila DAF , Cai. : a for in . of , 2015, 324–333. doi: 10.1093/ije/

[2] C. de , Marta , Hein . : An R for the of Risks and Multi-State . of , 2011,38(7)

其他相关
张晓泉: 量化就是从不确定性中寻找确定性

张晓泉: 量化就是从不确定性中寻找确定性

作者: 天天见闻 时间:2023-03-21 阅读: 90
超量子基金创始人张晓泉博士出席并进行了主题为《在不确定中寻找量化的未来》的明星私募投资报告会。第一个是用量化的办法去归因主观投资的收益,我们可以用量化的方法更好的理解主观投资的成功,我们简单探讨一下量化未来的发展方向,  一、用量化归因主观投资收益。就是被低估的股票可能未来表现很好;也就是说股票如果和大盘的相关性比较低,说明他的策略和市场的相关性小于1。...
ESG评价对债券发行人融资成本的影响研究

ESG评价对债券发行人融资成本的影响研究

作者: 天天见闻 时间:2022-10-18 阅读: 235
  摘   要   本文以2019年6月30日至2021年6月30日我国债券市场发行的公募信用债作为研究对象,对ESG评价与债券融资成本之间的关系进行实证研究。研究发现,ESG表现较好的发行人的债券融资成本较低,在其他条件不变的情况下,ESG评价每提升1分可平均降低债券融资成本17BP;不同产权性质的发行人在践行ESG理念效果方面存在差异;在发行前较早提高ESG表现有助于更好地降低融资成本;ESG对降低债券融资成本的直接效应和间接效应均显著。   关键词 ...
关于两种统计模型文化的思考

关于两种统计模型文化的思考

作者: 天天见闻 时间:2022-09-29 阅读: 175
直觉在算法建模文化中没有地位,这与在数据模型不同。随着我们对世界的了解,我们需要更复杂的预测和学习信息的模型。科学的其他部分正朝着更大的复杂性发展,为什么统计学要仍然坚持最简单的模型呢?算法文化不是放弃数据模型。统计学是一个古老的领域,但这并不意味着它必须一直停留在过去:通过采用最新的算法,统计学家可以解决建模中出现的挑战性的新问题。...
统计模型开发步骤——对公客户建模要点解析

统计模型开发步骤——对公客户建模要点解析

作者: 天天见闻 时间:2022-09-29 阅读: 150
开发统计模型的第一步需要设定违约定义并进行违约客户标识,以生成建模所需的目标变量:违约客户与非违约客户。然后需要根据模型使用的目标客户群,面向历史数据筛选出符合建模条件的样本数据集,在此数据集上进行统计模型开发。在客户违约标识打上之后,需要进行统计建模样本的筛选工作,目的是使得建模采用的样本数据集同模型未来应用的的目标客户群一致。...
在我的世界中玩电脑,什么神奇的MOD?

在我的世界中玩电脑,什么神奇的MOD?

作者: 天天见闻 时间:2022-02-23 阅读: 1823
今天小黑在浏览我的世界中文网的时候,发现了一款神奇的模组,可以在我的世界玩电脑!如果也不想玩《毁灭战士》那就玩一把我的世界把,在我的世界中玩我的世界,然后在我的世界中的我的世界中在下载一个我的世界……...
《德鲁纳酒店》在线观看和下载

《德鲁纳酒店》在线观看和下载

作者: 天天见闻 时间:2022-02-24 阅读: 853
德鲁纳酒店原名: ,又名月之酒店、酒店Deluna、Hotel Deluna、Hotel Del Luna. 由吴庆焕执导,并且由编剧洪静恩、洪美兰携幕后团队创作。并于2019-07-13(韩国)公映的电视剧。创作于韩国地区,具有韩语语言版本。德鲁纳酒店在线观看资源:目前清晰度未知,请您自己尝试后再决定是否需要。豆瓣评分7.8,算是一部中等偏上的电视剧作品,值得收藏看德鲁纳酒店,推荐大家观看。...
我来说两句

年度爆文