基于多尺度深度学习的乳腺癌图像识别方法、装置及介质[发明专利]
(12)发明专利申请
(10)申请公布号 CN 110175998 A(43)申请公布日 2019.08.27
(21)申请号 201910463121.2(22)申请日 2019.05.30
(71)申请人 沈闯
地址 210019 江苏省南京市建邺区乐山路
198号2幢一单元2704室(72)发明人 高雨枫 张天忆 沈闯 (74)专利代理机构 北京酷爱智慧知识产权代理
有限公司 11514
代理人 张绍磊(51)Int.Cl.
G06T 7/00(2017.01)G16H 50/20(2018.01)G06T 7/11(2017.01)G06T 7/136(2017.01)
权利要求书2页 说明书9页 附图7页
CN 110175998 A(54)发明名称
基于多尺度深度学习的乳腺癌图像识别方法、装置及介质(57)摘要
本发明实施例公开了一种基于多尺度深度学习的乳腺癌图像识别方法、装置及介质,方法包括:获取两个尺度图像;对两个尺度图像进行预处理,以得到图块集;将图块集输入预先训练的识别网络,以得到概率集;基于概率集得到概率热图,并将其转换为二值图像;提取二值图像的连通域特征,以得到两个特征集合,并将两个特征集合合并为目标特征集合;将目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果。本发明实施例乳腺癌图像识别方法可以作为计算机辅助诊断工具,辅助病理科医生做出诊断,提高医生诊断的准确率与效率。
CN 110175998 A
权 利 要 求 书
1/2页
1.一种基于多尺度深度学习的乳腺癌图像识别方法,其特征在于,包括:获取第一尺度图像及第二尺度图像;
对所述第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集,所述预处理包括降采样、色彩空间转换及感兴趣区域提取;
将所述第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别网络,以得到第一概率集及第二概率集;所述第一识别网络及第二识别网络为卷积神经网络;
基于所述第一概率集及第二概率集得到第一概率热图及第二概率热图,并将所述第一概率热图及第二概率热图转换为第一二值图像及第二二值图像;
提取所述第一二值图像及第二二值图像的连通域特征,以得到第一特征集合及第二特征集合,并将所述第一特征集合及第二特征集合合并为目标特征集合;
将所述目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果。2.如权利要求1所述的基于多尺度深度学习的乳腺癌图像识别方法,其特征在于,对所述第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集,具体包括:
对所述第一尺度图像及第二尺度图像进行降采样处理,以得到当前降采样图像,并记录当前降采样系数;
将所述当前降采样图像的色彩空间由RGB空间转换为HSV空间,并通过阈值分割提取当前感兴趣区域;
针对所述当前降采样图像,在所述当前感兴趣区域内逐像素地取得像素坐标,基于所述当前降采样系数得到所述像素坐标在所述第一尺度图像及第二尺度图像中的映射坐标;
以所述映射坐标为中心,在所述第一尺度图像及第二尺度图像中提取预设大小的图像块,以得到第一图块集及第二图块集。
3.如权利要求2所述的基于多尺度深度学习的乳腺癌图像识别方法,其特征在于,所述第一概率集及第二概率集包括多个图像块的癌变概率,基于所述第一概率集及第二概率集得到第一概率热图及第二概率热图,具体包括:
依据所述图像块在所述当前降采样图像上所对应的像素坐标,将所述图像块的癌变概率填充至该像素坐标,以得到所述第一概率热图及第二概率热图。
4.如权利要求3所述的基于多尺度深度学习的乳腺癌图像识别方法,其特征在于,获取第一尺度图像及第二尺度图像之前,所述图像识别方法还包括:
获取样本图像,基于所述样本图像训练所述第一识别网络、第二识别网络及随机森林分类器。
5.如权利要求4所述的基于多尺度深度学习的乳腺癌图像识别方法,其特征在于,获取样本图像,基于所述样本图像训练所述第一识别网络及第二识别网络,具体包括:
获取样本图像,所述样本图像包括两个尺度下的乳腺组织病理图像;对所述样本图像进行降采样处理,以得到样本降采样图像,并记录样本降采样系数;将所述样本降采样图像的色彩空间由RGB空间转换为HSV空间,并通过阈值分割提取样本感兴趣区域;
根据医生对乳腺组织病理图像的标注及所述样本感兴趣区域,对两个尺度下的乳腺组织病理图像进行病变与正常的图像块提取,以得到样本图像块数据集;
基于所述样本图像块数据集训练得到所述第一识别网络及第二识别网络。
2
CN 110175998 A
权 利 要 求 书
2/2页
6.如权利要求5所述的基于多尺度深度学习的乳腺癌图像识别方法,其特征在于,基于所述样本图像训练随机森林分类器,具体包括:
针对所述样本降采样图像,在所述样本感兴趣区域内逐像素地取得样本像素坐标,基于所述样本降采样系数得到所述样本像素坐标在所述样本图像中的样本映射坐标;
以所述样本映射坐标为中心,在所述样本图像中提取预设大小的图像块,以得到所述样本图像块数据集;
将所述样本图像块数据集输入所述第一识别网络及第二识别网络,以得到样本概率集;
基于所述样本概率集得到样本概率图,并将所述样本概率图转换为样本二值图像;基于所述样本二值图像以得到样本特征集合,并将所述样本特征集合与样本图像进行配对作为数据对;
基于所述样本特征集合训练得到所述随机森林分类器。7.一种基于多尺度深度学习的乳腺癌图像识别装置,其特征在于,包括:获取模块,用于获取第一尺度图像及第二尺度图像;预处理模块,用于对所述第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集,所述预处理包括降采样、色彩空间转换及感兴趣区域提取;
识别模块,用于将所述第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别网络,以得到第一概率集及第二概率集;所述第一识别网络及第二识别网络为卷积神经网络;
转换模块,用于基于所述第一概率集及第二概率集得到第一概率热图及第二概率热图,并将所述第一概率热图及第二概率热图转换为第一二值图像及第二二值图像;
提取模块,用于提取所述第一二值图像及第二二值图像的连通域特征,以得到第一特征集合及第二特征集合,并将所述第一特征集合及第二特征集合合并为目标特征集合;
预测模块,用于将所述目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果。
8.如权利要求7所述的基于多尺度深度学习的乳腺癌图像识别装置,其特征在于,还包括:
训练模块,用于获取样本图像,基于所述样本图像训练所述第一识别网络、第二识别网络及随机森林分类器。
9.一种基于多尺度深度学习的乳腺癌图像识别装置,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
3
CN 110175998 A
说 明 书
1/9页
基于多尺度深度学习的乳腺癌图像识别方法、装置及介质
技术领域
[0001]本发明涉及图像识别技术领域,具体涉及一种基于多尺度深度学习的乳腺癌图像识别方法、装置及计算机可读存储介质。背景技术
[0002]人工智能在近几年内已经成为计算机科学领域中的重要研究方向,其成为了智能时代发展的一项核心技术。深度学习作为人工智能领域的一个重要研究成果,使得机器视觉研究领域得到了重大的突破。在2012年ImageNet竞赛中,有队伍使用神经网络将分类的最优结果提升了11%,并一举夺得当年ImageNet竞赛的冠军,深度神经网络从此走进了领域学者们的视野内。
[0003]在深度学习技术出现之前,机器视觉的算法中一个难以避免的问题便是如何将图像中的可用特征提取出来,而人工提出特征往往会导致算法的局限性,主要体现为两方面:人工特征的提取往往依赖于专业经验,从而导致特征提取不全或者提取的特征有效性较差;人工的特征融合的方式有限,使得提取到的特征信息无法得到有效地利用。而深度学习的算法可以在大量的训练过程中自主学习如何提取特征、提取何种特征,并将多个特征进行融合得到最后的预测结果,这就是深度学习能够在机器视觉领域大放异彩的一个原因。[0004]癌症作为现代医学上的一个重大难题,如果能够及早发现,病人就能够较早得到治疗,治愈的概率也会大大提高。诊断癌症的方式有很多种,其中就包括通过组织病理切片进行诊断的方法,其主要过程是取病人身上的组织进行切片、染色制成玻片,在高倍显微镜下获得全片数字化图像供医生进行诊断。而目前诊断组织病理切片的工作需要高水平人才,该工作对于医生的专业知识及经验有着较高的要求,往往需要数年的学习与实践才能培养出一个优秀的病理医生,同时也是一个十分耗时耗力的工作,且医生诊断一张病理切片耗时较长且准确率也较低。
[0005]目前计算机辅助诊断已广泛地应用在医学方面,深度学习算法可以在临床积累的大量全片数字化图像的基础上进行训练,学习病理切片中的有效特征如组织的纹理、细胞核大小、分布等等,并综合特征信息达到辅助预测的效果。发明内容
[0006]本发明实施例的目的在于提供一种基于多尺度深度学习的乳腺癌图像识别方法、装置及计算机可读存储介质,以作为计算机辅助诊断工具,辅助病理科医生做出诊断,提高医生诊断的准确率与效率。[0007]为实现上述目的,第一方面,本发明实施例提供了一种基于多尺度深度学习的乳腺癌图像识别方法,包括:
[0008]获取第一尺度图像及第二尺度图像;
[0009]对所述第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集,所述预处理包括降采样、色彩空间转换及感兴趣区域提取;
4
CN 110175998 A[0010]
说 明 书
2/9页
将所述第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别
网络,以得到第一概率集及第二概率集;所述第一识别网络及第二识别网络为卷积神经网络;
[0011]基于所述第一概率集及第二概率集得到第一概率热图及第二概率热图,并将所述第一概率热图及第二概率热图转换为第一二值图像及第二二值图像;[0012]提取所述第一二值图像及第二二值图像的连通域特征,以得到第一特征集合及第二特征集合,并将所述第一特征集合及第二特征集合合并为目标特征集合;[0013]将所述目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果。
[0014]第二方面,本发明实施例还提供了一种基于多尺度深度学习的乳腺癌图像识别装置,包括:
[0015]获取模块,用于获取第一尺度图像及第二尺度图像;[0016]预处理模块,用于对所述第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集,所述预处理包括降采样、色彩空间转换及感兴趣区域提取;[0017]识别模块,用于将所述第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别网络,以得到第一概率集及第二概率集;所述第一识别网络及第二识别网络为卷积神经网络;[0018]转换模块,用于基于所述第一概率集及第二概率集得到第一概率热图及第二概率热图,并将所述第一概率热图及第二概率热图转换为第一二值图像及第二二值图像;[0019]提取模块,用于提取所述第一二值图像及第二二值图像的连通域特征,以得到第一特征集合及第二特征集合,并将所述第一特征集合及第二特征集合合并为目标特征集合;
[0020]预测模块,用于将所述目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果。[0021]第三方面,本发明实施例还提供了另一种基于多尺度深度学习的乳腺癌图像识别装置,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。[0022]第四方面,本发明实施例还提供了一种计算机可读存储介质,其内存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
[0023]实施本发明实施例,先对第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集,再将第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别网络(卷积神经网络),以得到第一概率集及第二概率集,并基于两个概率集生成概率热图,提取概率热图中的连通域特征以得到目标特征集合,最后将目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果;通过本发明实施例,可以直接处理大尺寸的全片数字化图像,并且凭借卷积神经网络的抽取特征能力,达到较高精度的癌症诊断能力,可以作为计算机辅助诊断工具,辅助病理科医生做出诊断,提高了医生临床诊断的准确率与效率。
5
CN 110175998 A
说 明 书
3/9页
附图说明
[0024]为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。[0025]图1是本发明一实施例提供的基于多尺度深度学习的乳腺癌图像识别方法的示意流程图;
[0026]图2是本发明实施例乳腺癌图像识别方法的卷积神经网络训练的流程示意图;[0027]图3是本发明实施例乳腺癌图像识别方法的随机森林训练的流程示意图;[0028]图4是本发明实施例乳腺癌图像识别方法的测试流程示意图;[0029]图5是本发明乳腺癌图像识别方法的乳腺全片数字化图像示意图;[0030]图6是本发明乳腺癌图像识别方法的概率热图示意图;
[0031]图7是本发明一实施例提供的基于多尺度深度学习的乳腺癌图像识别装置的结构框图;
[0032]图8是本发明另一实施例提供的基于多尺度深度学习的乳腺癌图像识别装置的结构框图。
具体实施方式
[0033]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0034]请参考图1,是本发明一实施例提供的基于多尺度深度学习的乳腺癌图像识别方法的流程示意图。如图所示,该方法可以包括以下步骤:[0035]S101,获取第一尺度图像及第二尺度图像;[0036]S102,第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集;
[0037]其中,所述预处理包括降采样、色彩空间转换及感兴趣区域提取;[0038]S103,将第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别网络,以得到第一概率集及第二概率集;[0039]其中,所述第一识别网络及第二识别网络为卷积神经网络;[0040]S104,基于第一概率集及第二概率集得到第一概率热图及第二概率热图,并将第一概率热图及第二概率热图转换为第一二值图像及第二二值图像;[0041]S105,提取第一二值图像及第二二值图像的连通域特征,以得到第一特征集合及第二特征集合,并将第一特征集合及第二特征集合合并为目标特征集合;[0042]S106,将目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果。
[0043]实施本发明实施例,先对第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集,再将第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别网络(卷积神经网络),以得到第一概率集及第二概率集,并基于两个概率集生成
6
CN 110175998 A
说 明 书
4/9页
概率热图,提取概率热图中的连通域特征以得到目标特征集合,最后将目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果;通过本发明实施例,可以直接处理大尺寸的全片数字化图像,并且凭借卷积神经网络的抽取特征能力,达到较高精度的癌症诊断能力,可以作为计算机辅助诊断工具,辅助病理科医生做出诊断,提高了医生临床诊断的准确率与效率。
[0044]再请参考图2至图4,本发明实施例所提供的基于多尺度深度学习的乳腺癌图像识别方法,主要包括卷积神经网络训练流程,随机森林训练流程以及测试流程。[0045]如图2所示,是本发明方法中训练针对图像块分类的卷积神经网络训练流程:[0046]步骤step 1:获取一个病例在20倍与40倍放大镜下的乳腺组织病理图像;即获取样本图像,该样本图像包括20倍与40倍放大镜下的两个尺度图像;[0047]步骤step2:通过降采样的方法将大尺寸的全片数字化图像降采样为较低分辨率的图像以方便后续操作,同时记录降采样系数,可通过该参数进行降采样图像与原始分辨率图像之间的映射;[0048]即,对样本图像进行降采样处理,以得到样本降采样图像,并记录样本降采样系数;
[0049]步骤step 3:将降采样图像的色彩空间由RGB空间转换为HSV空间,并通过阈值分割得到感兴趣区域。由于全片数字化图像中包含大量的玻片背景区域,与之对应的则是细胞组织区域,感兴趣区域的提取可以使得之后步骤聚焦于细胞组织区域。RGB色彩空间由于其三个通道高度相关,难以通过阈值进行分割,所以转换为HSV色彩空间,由背景与组织的H通道的差别进行阈值分割;
[0050]即将样本降采样图像的色彩空间由RGB空间转换为HSV空间,并通过阈值分割提取样本感兴趣区域。[0051]步骤step 4:根据医生对于病理图像的标注与step 3中得到的感兴趣区域进行病变与正常的图像块提取,由此可以得到一个图像块数据集,每个图像块对应标签正常或者病变,具体的提取策略如下:[0052](1)正常的图像块只在标注为正常的病理图像中进行提取;[0053](2)病变的图像块在标注为癌变的病理图像中进行提取,并且病变的图像块中需要病变区域占总面积40%以上,否则该抛弃该图像块;[0054]即,根据医生对乳腺组织病理图像的标注及所述样本感兴趣区域,对两个尺度下的乳腺组织病理图像进行病变与正常的图像块提取,以得到样本图像块数据集;[0055]步骤step 5:使用上一步骤中得到的图像块数据集训练卷积神经网络。应当说明该步骤中的卷积神经网络并不仅仅局限于某个具体的网络模型,具有识别功能且表现优异的卷积神经网络都可以应用到本发明该步骤中,卷积神经网络往往包括卷积层、池化层和全连接层,且通过训练优化损失函数以使得模型具有较强的分类识别能力。且step 4中实际是获得了两个不同尺度的图像块数据集,所以在该步骤中实际是对于两个数据集分别训练两个网络,这两个网络分别具有识别20倍与40倍镜下的图像块的能力;[0056]步骤step 6:在step 5训练过程中损失函数收敛完成后,即可以得到针对20倍与40倍尺度的分类识别网络,至此本发明方法中神经网络训练流程结束,在这个流程中最终可以获得两个识别网络,分别针对不同尺度的图像块的识别与分类,为后续流程提供功能
7
CN 110175998 A
说 明 书
5/9页
支撑。
即,基于样本图像块数据集训练得到第一识别网络及第二识别网络。其中,第一识
别网络及第二识别网络均为卷积神经网络,其包括卷积层、池化层、全连接层与损失函数。且,要求网络输入图像块,输出0-1之间的概率值,代表该图像块中包含癌症病变的概率,其中1代表该图像块中有癌变区域,0代表该图像块中无癌变区域。[0058]参照图3,是本发明方法中训练针对特征分类的随机森林训练流程:[0059]步骤step 7:是基于step 2中获得的样本降采样图像进行的,针对样本降采样图像,在样本感兴趣区域内逐像素地取得像素位置,并由step 2中获得的样本降采样系数得到样本降采样图像中像素坐标在原图像中的映射,以该映射坐标为中心在原图像中提取固定大小的图像块,这样可以保证图像块覆盖感兴趣区域并有着部分重叠,由此针对20倍图像与40倍图像都生成了一个图像块集;[0060]即,针对样本降采样图像,在样本感兴趣区域内逐像素地取得样本像素坐标,基于样本降采样系数得到样本像素坐标在样本图像中的样本映射坐标;[0061]以样本映射坐标为中心,在样本图像中提取预设大小的图像块,以得到样本图像块数据集。
[0062]步骤step 8:将step 7中提取得到的图像块集作为输入分别送入step 6中得到的两个尺度的识别网络,网络对于每个图像块都可以预测一个该图像块癌变的概率,由此在这一步中将图像块集经由神经网络后得到一个概率集;[0063]即,将样本图像块数据集输入第一识别网络及第二识别网络,以得到样本概率集。[0064]步骤step 9将step 8中得到的概率集依据其图像块在降采样图像上所对应的像素位置,填充其概率值到该像素位置,由于图像块时在感兴趣区域内逐像素提取的,所以概率集中的概率值可以填充满整个感兴趣区域,该由概率值填充的图像称为概率热图,如图6则是一张降采样图像对应的概率热图,概率热图中每个像素值是0-1之间的实数值。基于该概率热图,采用固定阈值的方式对其进行二值化,以0.5与0.9为阈值将概率热图转换为两张二值图像,其转换公式如下:
[0065][0057]
[0066][0067]
由此可以得到二值图像;[0068]即,基于样本概率集得到样本概率图,并将样本概率图转换为样本二值图像。[0069]步骤step 10:提取二值图像中的连通域特征,在step 9将概率热图转换为二值图像后,图像上存在连通域,这些连通域可以代表癌变概率较高的区域,通过对连通域进行分析,提取连通域数目、面积、周长、平均预测概率、最大预测概率,以及面积、周长数据分布的均值、方差、偏度、峭度等特征作为特征集合,应该说明此处的特征提取方式不仅仅限于此,可以有不同的特征搭配方式作为特征集合提取的依据。每张病理图像对应20倍与40倍分辨率下的两个特征集合与医生所标定图像标签;[0070]步骤step 11:将每张病理图像所对应的两个特征集合合并获得一个特征集合,与
8
CN 110175998 A
说 明 书
6/9页
其标签配对作为一个数据对;[0071]即,基于样本二值图像以得到样本特征集合,并将样本特征集合与样本图像进行配对作为数据对;[0072]步骤step 12:在step 11中每张病理图像都转换为了一个特征集合与标签的数据对,将所有图像得到的数据集用于训练随机森林分类器,随机森林分类器中包含多棵决策树,至此本发明中随机森林训练流程结束,该流程最后获得了针对特征集合分类器,该分类器的输出即代表了本发明对于乳腺病理图像的是否含有病变的预测结果。[0073]即,基于样本特征集合训练得到随机森林分类器。[0074]参照图4,是本发明方法在用于辅助诊断时的工作流程:[0075]步骤13:对于一张等待被诊断的病理图像,如图5所示,获得其在20倍与40倍显微镜下的两个尺度的全片数字化图像,并对这两个尺度的图像进行降采样处理获得降采样图像并获得其相应的降采样系数,并对降采样图像进行预处理,其具体的预处理操作包括RGB颜色空间转换到HSV色彩空间,并通过阈值分割的方法提取感兴趣区域;[0076]即,获取第一尺度图像及第二尺度图像,并对其进行降采样处理,以得到当前降采样图像,并记录当前降采样系数;
[0077]将当前降采样图像的色彩空间由RGB空间转换为HSV空间,并通过阈值分割提取当前感兴趣区域。[0078]步骤step 14:是基于step 13中获得的当前降采样图像进行的,针对当前降采样图像,在当前感兴趣区域内逐像素地取得像素位置,并由step 13中获得的当前降采样系数得到当前降采样图像中像素坐标在原图像中的映射,以该映射坐标为中心在原图像中提取固定大小的图像块,这样可以保证图像块覆盖感兴趣区域并有着部分重叠,由此针对20倍图像与40倍图像都生成了一个图像块集;[0079]即,针对当前降采样图像,在当前感兴趣区域内逐像素地取得像素坐标,基于当前降采样系数得到像素坐标在第一尺度图像及第二尺度图像中的映射坐标;[0080]以映射坐标为中心,在第一尺度图像及第二尺度图像中提取预设大小的图像块,以得到第一图块集及第二图块集;[0081]步骤step 15:将step 14中提取得到的图像块集作为输入分别送入step 6中得到的两个尺度的识别网络,网络对于每个图像块都可以预测一个该图像块癌变的概率,由此在这一步中将图像块集经由神经网络后得到一个概率集;[0082]即,将第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别网络,以得到第一概率集及第二概率集;[0083]步骤step 16:将step 15中得到的概率集依据其图像块在降采样图像上所对应的像素位置,填充其概率值到该像素位置,由于图像块时在感兴趣区域内逐像素提取的,所以概率集中的概率值可以填充满整个感兴趣区域,该由概率值填充的图像称为概率热图,如图6则是一张降采样图像对应的概率热图,概率热图中每个像素值是0-1之间的实数值。基于该概率热图,采用固定阈值的方式对其进行二值化,以0.5与0.9为阈值将概率热图转换为两张二值图像;[0084]即,依据图像块在降采样图像上所对应的像素坐标,将图像块的癌变概率填充至该像素坐标,以得到第一概率热图及第二概率热图,并将其转换为第一二值图像及第二二
9
CN 110175998 A
说 明 书
7/9页
值图像;
[0085]步骤step 17:提取二值图像中的连通域特征,在step 16将概率热图转换为二值图像后,图像上存在连通域,这些连通域可以代表癌变概率较高的区域,通过对连通域进行分析,提取连通域数目、面积、周长、平均预测概率、最大预测概率,以及面积、周长数据分布的均值、方差、偏度、峭度等特征作为特征集合;[0086]步骤step 18:将每张病理图像所对应的两个特征集合合并获得一个特征集合;[0087]即,提取第一二值图像及第二二值图像的连通域特征,以得到第一特征集合及第二特征集合,并将第一特征集合及第二特征集合合并为目标特征集合;[0088]步骤step 19:将step 18中获得的特征集合输入到step 12中获得的随机森林分类器中进行预测;[0089]步骤step 20:即可以获得本发明对乳腺病理图像是否含有病变的预测结果。[0090]即,将目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果。[0091]实施本发明实施例提供的基于多尺度深度学习的乳腺癌图像识别方法,将大尺寸的全片数字化图像分割成固定大小的图像块,然后针对这个固定大小的图像块构建识别的卷积神经网络,使得神经网络具有识别图像块中癌变区域的能力,然后生成热图,提取热图中的连通域特征,再用随机森林模型对提取到的特征进行分类,从而得到全片数字化图像所对应的预测类别。本方法可以直接处理大尺寸的全片数字化图像,并且凭借卷积神经网络的抽取特征能力,而达到较高精度的癌症诊断能力。可以作为医学辅助诊断方法,提高医生临床诊断的准确率与效率。[0092]基于相同的发明构思,本发明实施例提供了一种基于多尺度深度学习的乳腺癌图像识别装置。如图7所示,该图像识别装置包括:[0093]获取模块10,用于获取第一尺度图像及第二尺度图像;[0094]预处理模块11,用于对所述第一尺度图像及第二尺度图像进行预处理,以得到第一图块集及第二图块集,所述预处理包括降采样、色彩空间转换及感兴趣区域提取;[0095]识别模块12,用于将所述第一图块集及第二图块集分别输入预先训练的第一识别网络及第二识别网络,以得到第一概率集及第二概率集;所述第一识别网络及第二识别网络为卷积神经网络;[0096]转换模块13,用于基于所述第一概率集及第二概率集得到第一概率热图及第二概率热图,并将所述第一概率热图及第二概率热图转换为第一二值图像及第二二值图像;[0097]提取模块14,用于提取所述第一二值图像及第二二值图像的连通域特征,以得到第一特征集合及第二特征集合,并将所述第一特征集合及第二特征集合合并为目标特征集合;
[0098]预测模块15,用于将所述目标特征集合输入预先训练的随机森林分类器进行预测,以得到预测结果。[0099]进一步地,该图像识别装置还包括训练模块,用于获取样本图像,基于所述样本图像训练所述第一识别网络、第二识别网络及随机森林分类器。[0100]可选地,在本发明的另一实施例中,如图8所示,该基于多尺度深度学习的乳腺癌图像识别装置,可以包括:一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104,上述处理器101、输入设备102、输出设备103和存储器104通过总线
10
CN 110175998 A
说 明 书
8/9页
105相互连接。存储器104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。[0101]应当理解,在本发明实施例中,所称处理器101可以是中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件。
[0102]输入设备102可以包括键盘等,输出设备103可以包括显示器(LCD等)、扬声器等。该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如,存储器104还可以存储设备类型的信息。
[0103]具体实现中,本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于多尺度深度学习的乳腺癌图像识别方法的实施例中所描述的实现方式,在此不再赘述。[0104]需要说明的是,本发明实施例所提供的基于多尺度深度学习的乳腺癌图像识别装置的具体工作流程,请参考前述方法实施例部分的描述,在此不再赘述。[0105]相应地,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:上述基于多尺度深度学习的乳腺癌图像识别方法。
[0106]所述计算机可读存储介质可以是前述任一实施例所述的系统的内部存储单元,例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备,例如所述系统上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。[0107]本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0108]在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0109]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
11
CN 110175998 A
说 明 书
9/9页
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。[0110]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0111]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0112]以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
12
CN 110175998 A
说 明 书 附 图
1/7页
图1
13
CN 110175998 A
说 明 书 附 图
2/7页
图2
14
CN 110175998 A
说 明 书 附 图
3/7页
图3
15
CN 110175998 A
说 明 书 附 图
4/7页
图4
16
CN 110175998 A
说 明 书 附 图
5/7页
图5
17
CN 110175998 A
说 明 书 附 图
6/7页
图6
图7
18
CN 110175998 A
说 明 书 附 图
7/7页
图8
19
因篇幅问题不能全部显示,请点此查看更多更全内容