模型建立和可视化
这一章介绍的其实主要是列线图的绘制,这一步通常是在你选择好最后的模型之后进行的。当你经过各种步骤之后已经选好了最终的模型,那你可以把这个模型使用图形化的方式展示出来,也就是使用列线图的形式。
除此之外,还会介绍一些常见的数据划分方法和数据预处理方法。数据划分非常重要,就是大家常见的交叉验证、bootstrap、内部验证、外部验证等。
列线图(Alignment Diagram),又称诺莫图(Nomogram图),用来把多因素回归分析结果用图形方式表现出来,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系。
列线图并不是一种模型评价方法,它只是一种把模型进行图形化展示的方法。
根据模型中各个影响因素对结局变量的贡献程度(回归系数的大小),给每个影响因素的每个取值水平进行赋分,然后再将各个评分相加得到总评分,最后通过总评分与结局事件发生概率之间的函数转换关系,从而计算出该个体结局事件的预测值。
简单地说,就是把你的模型用图形化的方式展示出来。实际使用时不需要在训练集、验证集各来一遍,也不需要进行各种重抽样,这种做法没有任何意义。
目前能够绘制列线图的R包只有以下几个(如果还有欢迎大家补充):
我会在后面的章节中详细介绍以下模型的列线图绘制(其他模型是无法绘制列线图的):
- 逻辑回归
- cox回归
- 样条回归
- 竞争风险模型
- lasso回归
并且还会简单介绍下列线图的原理(也就是计算)、根据列线图计算得分、彩色条带的列线图等。
目前对于机器学习方法,比如决策树、随机森林、支持向量机、KNN、神经网络等,都是不能绘制列线图的(理论可行,实际不可行)。