工程硕士学位论文
基于定量影像组学的肺结节良恶性预测
汪俊
哈尔滨理工大学
2016 年 3 月
˝
•
‰
˚
国内图书分类号:TP391
工程硕士学位论文
基于定量影像组学的肺结节良恶性预测
硕 士 研 究 生: 汪俊
导
师: 刘 侠
申请学位级别: 工程硕士
学 科 、 专 业: 电子与通信工程
所 在 单 位: 测控技术与通信工程学院
答 辩 日 期: 2016 年 3 月
授予学位单位: 哈尔滨理工大学
˝
•
‰
˚
Classified Index:TP391
Dissertation for the Master Degree in Engineering
Prediction of Benign and Malignant of Lung Nodules
Based on Quantitative Radiomic Method
Candidate:
Supervisor:
Wang Jun
Liu Xia
Academic Degree Applied for: Master of Engineering
Specialty:
Electronics and Communication
Engineering
Date of Oral Examination:
March, 2016
University:
Harbin University of Science and
Technology
˝
•
‰
˚
哈尔滨理工大学硕士学位论文原创性声明
本人郑重声明:此处所提交的硕士学位论文《基于定量影像组学的肺结节
良恶性预测》,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独
立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他
人已发表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已
在文中以明确方式注明。本声明的法律结果将完全由本人承担。
作者签名: 汪俊 日期:2016 年 3 月 30 日
哈尔滨理工大学硕士学位论文使用授权书
《基于定量影像组学的肺结节良恶性预测》系本人在哈尔滨理工大学攻读
硕士学位期间在导师指导完下成的硕士学位论文。本论文的研究成果归哈尔滨
理工大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解
哈尔滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门
提交论文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以
采用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。
本学位论文属于
保密 ,在 年解密后适用授权书。
不保密。
(请在以上相应方框内打√)
作者签名: 汪俊 日期:2016 年 3 月 30 日
导师签名: 刘侠 日期:2016 年 3 月 30 日
˝
•
‰
˚
哈尔滨理工大学工程硕士学位论文
基于定量影像组学的肺结节良恶性预测
摘 要
在全球范围内,癌症严重危害人类健康,其中肺癌是所有癌症中最普遍
和最致命的。肺癌的早期诊断可以提高肺癌病人的存活率,由此可见肺癌的
早期诊断对肺癌的治疗至关重要。目前活体组织检查是协助临床医生确定肺
肿瘤良恶性的主要诊断方法。基于分子检测的活体组织检查需要侵入式的手
术取出病人的一小部分病变组织进行分析。由于,肺肿瘤空间和时间的异质
性,限制了这种方法的使用,但是医学影像却可以获取肿瘤内异质性。目前
临床上缺少一种具有高精度的,非侵入式的肺结节良恶性预测方法。
影像组学是一个新兴领域,通过提取大量的定量图像特征,构建描述肿
瘤和临床表现的模型,建立图像特征和临床表型的关联,进而进行肿瘤的诊
断和临床表型的预测。由此可见,采用影像组学的方法可以解决上述难题。
影像组学通常包括五个处理过程:(1)图像的获取;(2)图像的分割;
(3)特征提取和选择;(4)构建预测模型(5)信息学分析。本文采用影像
组学的方法构建预测肺结节良恶性的模型。第一,图像获取,从美国肺部图
像数据联盟数据库上选取了 593 例肺结节病人的数据,根据该数据库上提供
的良恶性信息将 593 例数据分为两类,恶性和良性。在这 593 例数据上设计
出训练集和验证集,测试集中有 400 例数据,其中良性结节 200 例,恶性结
节 200 例。验证集有 193 例数据,其中良性结节 71 例,恶性结节 122 例。
然后使用自动分割算法分割所有的数据,从病人的计算机断层图像中分割出
肺结节。提取了四类定量影像组学特征,包括肿瘤强度特征、肿瘤形状大小
特征、肿瘤纹理特征和小波特征,共提取了 200 定量图像特征。特征之间的
相关性和冗余度会降低分类的准确度,对提取的特征空间使用基于最小冗余
最大相关的特征选择方法,确定了一个包含 15 个定量特征的特征子集。最
后,为了得到理想的分类精度,利用遗传算法对支持向量机的误差惩罚参数
和核参数进行优化,先对训练集特征数据做归一化处理然后求出最优参数。
利用支持向量机训练出肺结节良恶性预测模型,并在验证集上进行验证。训
练集上预测的准确达到 86.0%,测试集上预测的准确率达到 76.1%。由于计
算机断层图像在临床中经常使用,本文构造的预测模型可以用于协助临床医
- I -
˝
•
‰
˚
哈尔滨理工大学工程硕士学位论文
生进行肺结节良恶性的诊断。
关键词 影像组学;特征提取和选择;最小冗余最大相关;遗传算法;支
持向量机
- II -
˝
•
‰
˚
哈尔滨理工大学工程硕士学位论文
Prediction of Benign and Malignant of Lung
Nodules Based on Quantitative Radiomic Method
Abstract
Cancer seriously threatening the health of mankind around the world, lung
cancer is most common and deadly cancer in all cancers. The early diagnosis of
lung cancer , which is crucial to the treatment,can improve the survival rate of
patients. The biopsy is the main diagnostic method to assist clinical doctor
discriminate the benign and malignant of lung tumor. It requires invasive
surgeries to extract and analyses what are generally small portions of the enti re
tumor tissue. As lung tumors are spatially and temporally heterogeneous, this
limits the use of invasive techniques,but the medical imaging can capture intra-
tumoural heterogeneity. There is a lack of predicting the benign and malignant of
lung nodules in a non-invasive way with a relative high accuracy.
Radiomics is an emerging field that generates models which can describe
the tumor and clinical manifestations and the relation between clinical phenotype
and image features through extracting large amounts of advanced quantitative
imaging features, then using the model to predict lung cancer and clinical
phenotype. Thus, the radiomics can solve the above problems in clinic.
The radiomics enterprise can be divide into five distinct processes: (1)
image acquisition; (2) image segmentation; (3) feature extraction; (4) generation
prediction model; (5) informatics analyses. Radiomics is used to generate a
model to discriminate the benign and malignant of lung nodules. According to
the information about malignant degree of nodule provided by Lung Image
Database Consortium Image Database Resource Initiative (LIDC-IDRI), we
divided the nodules of 593 patients into two categories (benign or malignant). To
maximize our ability to predict status of nodules, we deliberately designed the
training set to contain equal numbers of patients with benign and malignant
nodules (200 patients with benign nodules vs 200 patients with malignant
- III -
˝
•
‰
˚
哈尔滨理工大学工程硕士学位论文
nodules). The testing set includes 71 patients with benign nodules and 122
patients with malignant nodules. Here we carry out a radiomic analysis of 200
features quantifying lung tumour image intensity, shape and texture. These
features are extracted from 593 patients computed tomography (CT) LIDC-IDRI
dataset. Correlation and redundancy between features may reduce the accuracy of
the classification, the feature selection method based on minimum Redundancy
Maximum Relevance was used to define a feature subset with 15 features. To
obtain a higher prediction accuracy, the parameters of SVM are optimized by
genetic algorithm. Using support vector machine to train the prediction of benign
and malignant of lung nodules model in the training set, and validate in the
testing set. The accuracy of prediction of malignant of lung tumor is 86.0% in
training set and 76.1% in testing set. As CT imaging of lung tumor is widely used
in routine clinical practice, our radiomic classifier will be a valuable tool which
can help clinical doctor diagnose the lung cancer.
Keywords
radiomics, feature extraction and selection, minimum redundancy
maximum relevance, genetic algorithm, support vector machine
- IV -
˝
•
‰
˚