多模型比较
当我们建立了多个模型后,肯定是要比较不同模型的优劣的。模型比较涉及很多专业的方法和理论。
当说到模型比较时,我们其实是在比较模型的性能指标,比如,比较AUC值、RMSE、校准曲线、NRI、IDI等。但是此时我们比较的通常是这些指标的大小,比如,A模型的AUC值比B模型高,那么我们就认为A模型更好。
其实这种方法是很肤浅的。我们需要更加专业的比较方法,比如在前面介绍过的ROC曲线的比较(Delong检验),这种方法更加正式,而且还可以给出p值,在统计学上更加令人信服,是比单纯比较数值大小更好的方法。
有很多可以用于模型比较的专业方法,比如似然比检验和方差分析法,我们在Chapter 26 C-index的比较C-index的比较中一章中介绍过。
除此之外,还可以使用贝叶斯方法进行比较,这些方法都是有理论基础的,也有相关的参考文献。而且可以用于多种类型的模型比较,比如,随机森林模型和支持向量机模型进行比较,不必局限于回归模型。
但是由于这些方法目前在文献中用的很少,所以我会在接下来的章节中简单介绍下。
接下来的章节会主要介绍几个综合性R包的使用方法,比如caret
、tidymodels
、mlr3
,给大家展示如何使用简洁的代码同时比较多个不同的模型,方便大家快速筛选表现更好的模型。
注意
这部分内容主要是几个综合性的机器学习和预测建模R包的介绍,更多的使用方法,可参考机器学习合集。除此之外,在公众号后台回复caret
、tidymodels
、mlr3
,都可以直接获取相关合集。