1  什么是临床预测模型?

很多初学者对临床预测模型的概念很模糊,你上网一查,都是各种专有名词,然后告诉你已经在临床应用很久了,很有用,各种牛逼的期刊都可以见到临床预测模型的身影,在生信相关的文章中也很普遍,还可以用临床预测模型最meta分析等。

一通操作下来,你迷茫了,更加不知道临床预测模型是什么东西了,感觉懂了,又感觉没懂!

下面用通俗的语言来解释什么是临床预测模型,不扯高大上理论和晦涩的名词,只用接地气的语言来解释。

1.1 简单理解

临床预测模型,初听这个名字,或许会觉得很高大上,其实没那么复杂,你可以理解成一种方法,这种方法可以预测一个人到底是有病还是没病,或者预测一个人一段时间后会不会死,或者预测一个人的某种疾病会不会复发,又或者是预测一个样本到底是肿瘤还是正常组织……

再直白一点,临床预测模型是一个数学公式,根据这个公式,你提供一些基本信息,比如年龄、性别、体重、血红蛋白量等(或者某个基因的表达量等),就可以计算出这个人到底是有病还是没病!

目前很多疾病都需要做磁共振、做CT、病理才能确诊,假如你发现了一个公式,只要验个血,得到几个生化指标,就能根据你的公式算出来这个人到底是有病还是没病!这不比CT、磁共振、病理简单多了?值得推广。

所以,临床预测模型的本质是一种分类方法。通过这种方法,你可以对临床中的很多东西进行分类,比如,生和死、有病和没病、肿瘤和非肿瘤、复发和不复发等等。

既然是一种方法,那肯定就有准确和不准确,看名字也能知道,这只是一种预测,或者叫:猜(有根据的猜)! 如果你这种方法能和金标准相提并论,那说明你的方法很牛,如果恰好你的方法更加简单方便、经济适用,那你的方法真是太厉害了,非常有希望成为新的金标准!

那如何评价你的方法好还是不好呢?这就是临床预测模型的评价,通过各种指标(后面会详细介绍)、从各种不同的角度评价。

说了这么多,我怎么才能得到我的模型(或者叫方法)呢?这就是临床预测模型的另一个主要内容:临床预测模型的建立

前面说过,临床预测模型本质上就是一个公式而已!说个最简单的,逻辑回归(logistic),大家应该都知道怎么构建逻辑回归吧?不就是自变量和因变量吗。给你几个自变量,一个二分类的因变量,大家通过SPSS点点点,就可以得到各个自变量的系数,然后就能写出逻辑回归方程了。你的这个逻辑回归方程,这就是一个临床预测模型了!给你几个自变量的值,根据这个方程,你就可以算出因变量的值,然后就可以分类了!

说到这里,相信你应该明白很多了!但是这还不够,你可能还听过什么机器学习、lasso、随机森林、支持向量机等等,别慌,这就是我们接下来要说的:临床预测模型和机器学习的关系

1.2 临床预测模型和机器学习

机器学习,是不是听上去也高大上,但是对于学习临床医学的我们来说,不需要知道的太彻底,大概明白是什么就够了。

逻辑回归也是机器学习的一种,随机森林、决策树、支持向量机、lasso、岭回归、弹性网络、xgboost等等,这些都是和逻辑回归一样,只是不同的方法而已!

学过医学统计学的都知道(没学过可能也知道),如果因变量是连续性变量,那么我们就用多元线性回归,如果因变量是二分类变量,就用logistic回归(分类)。回归和分类,刚好就是机器学习的两个主要任务。很多方法,比如随机森林,既可以做回归,又可以做分类,而且准确度还很高,这就是为什么大家喜欢用其他方法的原因,主要是为了提高准确性。

临床预测模型,只是机器学习在医学领域的应用之一,回归和分类,适用于各行各业,所以在很多领域你都听过机器学习这几个字。此外,还有深度学习、人工智能等等,这些都可以简单的理解为更加牛逼的方法!

这些不同的方法都有各自适合的场景,在合适的场景下才能得到最好的表现,如何让模型表现的更好,那就需要学习一些机器学习的基本知识了,这些东西在bilibili一搜一大堆,大家可以自行学习,不过千万不要太沉迷哟!

但是你一搜机器学习教程,出来的都是推荐你吴恩达、西瓜书等内容,我是不太推荐的,这些东西不是给医学生/医生看的,你看这些,可能就是看天书,毕竟很多医学生,连高数都是不学的!我比较推荐statquest,b站也可以搜到,这是一个国外的生物统计教授的课程,他的风格更适合我们。不过在学习这些这些之前,希望你已经学会了书本中常见的医学统计知识。

1.3 临床预测模型和统计学

我们学过的医学统计学,在某些方面和机器学习是有交集的。比如,逻辑回归、多元线性回归,既是统计学方法,也是机器学习算法,这并不冲突,就像一个人在不同场合有不同身份一样。

在谈临床预测模型时,我们可能是偏向于机器学习多一点的,毕竟用到的很多方法和理论,都是来自于机器学习领域。但是随着临床预测模型的愈加火爆,它隐隐有成为一个单独细分领域的趋势。

你可能见到在很多生信文章中,使用一个模型并没有提前检验各种条件,直接就用了。但在医学统计学中,很多方法都是有适用条件的,符合条件才能用。哪种才是正确的呢?

其实不用纠结,别人能用你也能用,多看文章,你能发现各种用法,但是别人依然发了SCI,你也可以。如果非要说区别,这就涉及到频率学派和贝叶斯学派这些东西了,咱也不是很懂了,如果你有兴趣,可以自己探索。如果就是为了发文章,那就别搞这些没用的了,多看几篇高分SCI,跟着里面的思路模仿吧!

读到这里,你应该大致解临床预测模型,不致于云里雾里了。但是光说不练是假把式,还是希望你能多读几篇相关的文献。我也会在后面的章节中给大家介绍一些临床预测模型领域的经典文献。