胡雪梅, 杨俊文
丙型病毒性肝炎(简称丙型肝炎或丙肝)是一种由丙型肝炎病毒(HCV)感染引起的病毒性肝炎, 可导致肝脏慢性炎症坏死和纤维化, 部分患者可发展为肝硬化甚至肝细胞癌(HCC). 本文利用丙型肝炎数据建立惩罚三项logit模型诊断患者的疾病分期: 首先选取患者的12项生理指标作为预测向量, 丙型肝炎的三种疾病分期作为响应变量; 接着利用70%的数据作为训练集学习LASSO/Ridge/ENet惩罚三项logit模型, 得到模型的参数估计和概率估计; 再利用30%的数据作为测试集, 结合三类混淆矩阵, ROC(receiver operating characteristic) 曲面, HUM(hypervolume under the ROC manifold), PDI(polytomous discrimination index)和Kappa(Cohen's kappa coefficient)等评估疾病分期的预测精度; 最后引入人工神经网络(ANN), 支持向量机(SVM)和随机森林(RF)等机器学习方法和惩罚三项logit模型进行比较, 发现惩罚三项logit模型的三类分类预测表现最好, 不仅能够进一步提高疾病分期的诊断精度, 而且可以降低丙型肝炎的检测成本.