人工智能辅助胃部组织病理学诊断的数据采集和标注专家共识
《人工智能辅助胃部组织病理学诊断的数据采集和标注专家共识》编写组
Expert Committee of the Consensus on Data Acquisition and Annotation of Artificial Intelligence Assisted Gastric Histopathological Diagnosis
通信作者: 周炜洵(中国医学科学院 北京协和医学院 北京协和医院病理科,北京 100730),Email:zweixun@163.com
宋志刚(解放军总医院第一医学中心,北京 100853),Email:songzhg301@139.com
Corresponding author: Zhou Weixun (Department of Pathology, Peking Union Medical College Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100730, China), Email: zweixun@163.com
Song Zhigang (Department of Pathology, the First Medical Center of People′s Liberation Army General Hospital, Beijinɡ 100853, China), Email: songzhg301@139.com
执笔人:肖雨(中国医学科学院 北京协和医学院 北京协和医院病理科,北京 100730);袁静(解放军总医院第一医学中心,北京 100853)
胃癌是全球范围内癌症发生率第5,病死率第4的恶性肿瘤。截止到2020年,世界卫生组织(World Health Organization,WHO)数据显示,全球每年胃癌新发病例108万例,病死77万例[1 ] 。发病率在不同地区有所差异,其中东亚地区(如中国、日本和韩国)的发病率较高,我国胃癌新发病例47.9万例,死亡病例37.4万例[2 ] 。胃癌患病及致死率居高不下,严重威胁人民群众的生命健康,已成为我国重大的公共卫生问题。
胃黏膜病理活检是胃癌检出最重要的方法:消化科医师通过胃镜钳取肉眼可疑的病变组织,钳取下来的病变组织通过甲醛液固定、组织脱水、石蜡包埋、切片、染色等一系列病理技术环节制成病理切片,病理医师通过对病理切片进行显微镜下观察,最终确定是否存在胃癌病变。手术治疗后,病理医师可根据术后大标本对病变类型等进行更深入的分层诊断。当前我国几乎所有医院病理科均存在病理医师严重短缺的情况,因此,病理医师的工作负担日趋加重。近年来,人工智能辅助病理诊断在胃癌病变检出方面的应用已经取得了显著的进展。
基于有监督学习的人工智能技术的特点,算法模型所依赖的数据集的质量对人工智能产品的安全和有效性具有至关重要的作用。据此,为了促进胃部组织病理数字图像数据库的标准化的建立及相关人工智能辅助诊断产品的研发,有必要制定本共识,指导胃部组织病理数字图像采集和标注的规范化操作,并规范数字图像质量的评估标准,供相关人员参考。
一、数据来源及适用范围
根据当前我国临床需求以及处于注册申报阶段的人工智能产品的技术现状,数据集样本来源可以是各临床机构的门诊、住院及外院会诊等场合获取的人体组织病理数字图像。采集设备的参数代表行业实际水平。数据可用于胃部组织病理人工智能相关产品的研发和产品性能验证及评估等。
二、数据要求
1.合规性要求:数据采集前应与相关医疗机构签署科研合作协议,必要时还应获得医疗机构伦理委员会的批准,确保患者的隐私保护满足法规的要求。
2.数据脱敏:患者的个人信息应满足最小采集需求,不收集超范围的用户个人数据(敏感信息)。数据转移前应在临床机构内确保已完成脱敏,脱敏的方法可根据信息敏感程度以及适用的技术手段选择,如明确脱敏的类型(静态、动态)、规则、方法(手动、自动)以及脱敏内容等,保证患者隐私安全和患者利益不受损害。其中,个人敏感信息包括身份证号码、个人生物识别信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、14岁(含)以下儿童的个人信息等。
三、胃部组织病理数字图像采集前的组织切片评估
为确保数字图像采集的质量,医疗机构数据采集和/或数据质量评估人员应首先对组织切片制片质量进行评价,对同一批次的切片从以下几个维度进行抽样性评估。
1.切片染色质量要求:染色透明度高,背景干净无杂质及染液颗粒,苏木精、伊红染色程度适中,可以以正常胃黏膜为参照,主细胞、壁细胞清晰容易分辨,杯状细胞细胞质以轻微可见的淡蓝色为宜,不宜过蓝,如图1 所示。
10.3760/cma.j.cn112151-20240112-00028.F001
图1
胃黏膜高质量病理切片示例,A:主细胞和壁细胞清晰可辨;B:肠上皮化生的杯状细胞胞质显示为淡蓝色 HE 高倍放大
2.切片排除标准:制片质量不佳的切片应排除,如组织切片有破损、碎裂,组织切片有明显污损、不清洁,刀痕、褶皱、气泡等面积占比明显影响图像完整采集的情况。
3.切片的保存时间问题:考虑到切片长时间保存褪色的问题,从预计切片完成数字化图像扫描的时间点推算,建议入选的组织切片其制作时间应不超过5年。
4.切片标签完整,便于实现信息追溯。应注意避免多次贴签造成标签过厚,影响扫描的情况出现;切片信息应与病理信息系统一致,信息可追溯。
四、胃部组织切片样本量要求
数据采集时,应尽可能从病理信息系统中检索并获取足够多的良性及恶性病例,而且良性和恶性病例的不同分型之间病例数尽可能保持均衡(具体疾病分型见下文),此外还应对筛选出的病例进行形态学观察,应包含不同形态特征的病例,如低分化腺癌应包含实性、条索、单细胞、促结缔组织增生等各种形态的低分化癌。
五、胃部组织病理数字图像的采集
1.数字切片扫描仪参数要求:基于市场有国内外多种数字扫描仪种类和型号,为确保获得高质量的胃部组织数字病理图像,建议考虑以下因素:(1)设备厂家:已获医疗器械注册证的国内外厂家;(2)扫描参数:20×或者40×物镜,40×扫描模式;(3)扫描精度(分辨率):采集40×像素级分辨率,不高于0.26 μm/像素的数据;(4)扫描速度:无限定要求;(5)通量要求:无限定要求;(6)聚焦方式:手动/自动;(7)采集方式:明场扫描;(8)数据输出格式:JPEG、JPEG2000、BMP、Tiff、Tmap、mdss、KFB等格式。
2.扫描图像存储:切片扫描完成后,导出正确格式的数字图像,并以全分辨率保存。数据图像不得进行任何修改、编辑,不得进行扫描后有损压缩。
3.胃部组织病理数字图像的质量评估:扫描图像对焦准确,细胞形态、细胞膜、细胞核内部细节保留相对完整;数字病理切片图像出现模糊区域的面积比例不得大于5%,如果模糊区域出现在重要病变区域,且包含大部分病变区域,即使小于5%也视为不合格扫描。
六、胃部组织病理数字图像的数据清洗和预处理
1.数据清洗:为保证数据信息的准确性和可用性,需对原始数据库的数据进行清洗,数据清洗的规则、方法、结果,建议从以下方面(不限于)进行。(1)文件大小:建议考虑文件大小进行限定;(2)采集信息:数字切片与其采集信息无法追溯,予以删除;(3)坏片:数字切片文件损毁无法预览;(4)查重:数据重复出现。
2.数据预处理:为解决数据样本量分布不满足预期用途的问题,对数据进行预处理,方法如滤波、增强、重采样、尺寸裁剪、均一化等。
七、胃部组织病理图像的标注
数据标注质量直接影响到人工智能模型的有效性,故而需制定出一套科学的标注流程来指导胃部组织病理数字图像的标注,具体要求如下。
1.标注人员资质要求:考虑不同环节的标注任务、标注工作量以及人员资质差异,标注流程需要标注医师、审核人员、仲裁专家以及质控专家共同参与完成,人员具体要求见表1 。对于标注人员任用前需进行培训并考核(或试标),考试内容应包含数据集覆盖的全部病种并尽可能覆盖全面的图像特征,尤其是要考核对于癌前病变(高级别异型增生)的认识。标注人员应熟悉标注工具或标注软件的操作,遵从标注规则交付标注任务。这里需要特别强调的是,对于标注工具的选用,可从处理对象的范围,包括数据采集方式、存储格式[3 ] 等考虑,从而选择适用的标注工具,并应在使用前对其进行软件确认。结合多方面因素考虑后,可使用人工标注,也可使用自动标注软件,但自动标注结果不得直接使用,应由标注人员审核后方可使用[4 ] 。
10.3760/cma.j.cn112151-20240112-00028.T001
表1
胃部组织病理图像标注人员资质要求
人员
职称要求
工作资历
主要职责
诊断医师
高年资(3年以上)住院医师或主治医师及以上
3年以上独立诊断经验
对筛选出来的病例进行复诊
标注医师
高年资(3年以上)住院医师或主治医师及以上
3年以上独立诊断经验
对病变区域进行标注
审核医师
副主任医师及以上
10年以上独立诊断经验
对标注医师的标注进行审核
仲裁医师
副主任医师及以上
10年以上独立诊断经验
对疑难病例进行仲裁
质控专家
副主任医师及以上
10年以上独立诊断经验
对切片标注质量控制
2.疾病分型的标注规则:对于胃部组织病理的疾病分型,可参考第5版WHO消化系统肿瘤分类或者Lauren分型等具有共识的分型标准进行。建议对于疾病具体分型的标注规则[5 , 6 , 7 ] ,癌的分型至少包括为:印戒细胞癌、黏液腺癌、低分化腺癌、中分化腺癌、高分化腺癌、其他肿瘤(如印戒细胞癌外的差黏附性癌、神经内分泌肿瘤、淋巴上皮瘤样癌、肝样腺癌、鳞状细胞癌、淋巴瘤、胃肠道间质瘤等软组织肿瘤);癌前病变为:高级别上皮内瘤变;良性病变的疾病分型为:低级别上皮内瘤变、肠上皮化生、萎缩性胃炎、单纯炎症(包括慢性炎、活动性炎等)、其他。在实际操作过程中,建议将高级别上皮内瘤变划分为阳性样本。建议标注人员据此对胃部组织病理数字图像进行统一标注和输出。
3.流程设计:标注流程可分为几个步骤(图2 ):(1)病例诊断级标注:对筛选出的病例进行双人双盲阅片,给出疾病的良恶性及分型,对于2人诊断结果一致的病例则进入下一步标注环节;不一致时,审核医师介入审核,审核医师对于可直接诊断的切片,给予判读结果后,进入下一步标注环节;诊断医师或审核医师遇到疑难切片时,可申请由仲裁专家进行病例诊断(分类/分型)。(2)像素级标注:标注时采用双人线性标注的形式,标注医师1标注完成后,标注医师2对标注医师1标注的内容进行复核并修改。最后审核医师审核完毕后即完成标注过程。审核医师如有疑问,则请3位仲裁专家进行商议,仲裁专家对于疑难区域的标注达成一致性意见时,对该区域标注后,完成标注;如果仲裁专家对疑难区域的标注未能达成一致时,标注标签可设置为忽略,完成切片标注。
10.3760/cma.j.cn112151-20240112-00028.F002
图2
胃部组织病理数字图像标注流程图
4.标注环节各个标签的含义如下(图3 )[8 ] :(1)癌区:标注所有的癌变区域(包含高级别上皮内瘤变区域);组织病变区域轮廓尽可能准确,达到肉眼可见闭合的要求。(2)非肿瘤:癌区内的非肿瘤区域;不标注区域:其他区域默认为非肿瘤。(3)忽略/质量差:质量不佳或者无法判断的区域;扫描与制片质量差的区域使用“质量差”的标签进行标注;图像内的高级别上皮内瘤变及癌变区域应标尽标,不确定的区域可用“忽略”标注,尽可能少用“忽略”标签。(4)对于嵌套的标签,服从向内收缩的原则,以内圈的标注为先,以上原则对“忽略”标签不生效,其优先级高于所有标签。(5)对于分型的标注只标注标注者认为明确的分型。
10.3760/cma.j.cn112151-20240112-00028.F003
图3
胃部组织病理数字图像像素级标注示例;A:不标注的区域默认为非肿瘤,不用特别勾画;B:任何区域可用忽略勾画质量差或者难以识别的区域(篮圈显示),其优先级高于所有标签;C:标注线采用“向内收缩”原则,可在癌区标注区域的线条内勾画非肿瘤区域(绿圈显示)
5.质控环节:(1)针对疾病良恶性分类/分型环节的标注结果,由质控专家对诊断医师的工作绩效进行抽检,抽检数量依据GB 2828.1—2012《计数抽样检验程序 第1部分:按接收质量限(AQL)检索的逐批检验抽样计划》进行,可考虑诊断准确率等指标。(2)针对像素级标注,核查指标建议使用交并比合格率(如交并比应达到90%),抽检方法同上。(3)在质控中,针对以上2个标注环节中所发现的标注不合格切片的标注结果,会由后续的审核人员,或者仲裁人员来修正,形成切片标注操作的闭环。(4)建议定期对标注结果进行复查,及时发现并纠正可能的标注错误,如标注位置不够准确、标注类别错误等,以期进一步提高数据标注质量。
若需要进一步进行不同病变类型的标注,建议标注过程分成两步进行:第一步,对切片内所有的恶性病变进行线性闭环标注;第二步,对不同类型的病变进行标注。对于病变类型的标注,因主观性较强,建议只标注比较明确的区域;关于标注的更多操作细节可参考文献[8 ],见“Methods:Annotation procedure”,以及“Supplementary Figure 1 :Four examples of labelled WSIs”章节。
以上是本文所提出的对于胃部数字病理图像数据采集与标注的共识,分别从数据来源、数据要求、数据采集前的组织切片评估、组织切片样本量要求、组织病理数字图像的采集、数据清洗和预处理、数据标注等方面对数字病理图像数据采集与标注进行了规范和指导。本共识制订的宗旨是为胃部组织病理人工智能辅助诊断产品的研发提供参考,促进该类产品的规范化发展。
未来,随着胃部组织病理人工智能辅助诊断产品的进一步发展,数据采集与标注的技术要求也将不断提高。建议在未来的数据采集与标注工作中,应重点考虑以下几个方面:(1)数据来源的多样性:除了传统的病理信息系统数据之外,还应考虑从影像学、临床数据等多源数据中获取数据,以全面反映胃部组织病理的多维度信息。(2)数据标注的自动化程度:随着人工智能技术的进步,可考虑采用人工智能技术辅助数据标注,提高标注效率和准确性。(3)数据质量的评估标准:应建立统一的数据质量评估标准,以确保数据质量的一致性。通过不断的研究和探索,相信胃部数字病理图像数据采集与标注技术将更加成熟,为胃部组织病理人工智能辅助诊断产品的研发和应用提供更加有力的支撑。
参与编写的专家 (按单位名称汉语拼音字母顺序排列):安徽医科大学第二附属医院(秦蓉);安徽医科大学第一附属医院(樊祥山);北京大学第一医院(刘芳芳、张继新);北京大学医学部/北京大学第三医院(石雪迎);北京大学肿瘤医院(李忠武);重庆医科大学病理学教研室/重庆医科大学附属第一医院(王娅兰);复旦大学附属中山医院(侯英勇);复旦大学附属肿瘤医院(盛伟琪);复旦大学上海医学院病理学系(刘秀萍);哈尔滨医科大学附属第二医院(焦宇飞);哈尔滨医科大学附属肿瘤医院(孟宏学);海军军医大学东方肝胆外科医院(丛文铭);海军军医大学附属长海医院(陈颖、郑建明、朱明华);河北医科大学第二医院(张祥宏);河南省人民医院(李杜娟);华中科技大学同济医学院附属同济医院(王曦);华中科技大学同济医学院附属协和医院(郑丽端);江苏省苏州市立医院(吕京澴);解放军东部战区总医院(周晓军);解放军总医院第七医学中心(王鲁平);解放军总医院第一医学中心(宋志刚、袁静);空军军医大学西京医院(李增山);南昌大学第一附属医院(陶雪勤);南方医科大学南方医院(冶亚平);南京大学医学院附属鼓楼医院(史炯);南通大学附属肿瘤医院(何松);内蒙古医科大学基础医学院病理学教研室/内蒙古医科大学附属医院(马秀梅);青岛大学附属医院(邢晓明);山东大学齐鲁医院(王晓);山东省临沂市人民医院(战雪梅);山西医科大学第一医院(李宁);首都医科大学附属北京潞河医院(胡艳萍);首都医科大学附属北京友谊医院(陈光勇);皖南医学院弋矶山医院(王文军);新疆医科大学第一附属医院(桑伟);新乡医学院第一附属医院(苏蔚);浙江大学医学院病理学与病理生理学系(来茂德);浙江大学医学院附属第一医院(李君);浙江省台州医院(甘梅富);郑州大学第一附属医院(李珊珊);中国医科大学附属第四医院(高英);中国医科大学附属第一医院(邱雪杉);中国医学科学院 北京协和医学院 北京协和医院(陈杰、常晓燕、肖雨、周炜洵);中国医学科学院 北京协和医学院 肿瘤医院(薛丽燕);中南大学湘雅医院(李景和);中山大学附属第六医院(黄艳);中山大学附属第七医院(薛玲);中山大学附属第一医院(林原)
参考文献
参考文献
[1] Sung H , Ferlay J , Siegel RL , et al . Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries [J]. CA Cancer J Clin , 2021 , 71 (3 ):209 -249 . DOI: 10.3322/caac.21660 .
[2] 赫捷 , 陈万青 , 李兆申 , 等 . 中国胃癌筛查与早诊早治指南(2022, 北京) [J]. 中华肿瘤杂志 , 2022 , 44 (7 ): 634 -666 . DOI: 10.3760/cma.j.cn112152-20220617-00430 .
[3] 国家药品监督管理局 .YY/T 1833.3-2022.人工智能医疗器械质量要求和评价.第3部分:数据标注通用要求 [S]. [2022-08-17 ].
[4] 国家药品监督管理局医疗器械技术审评中心 .人工智能医疗器械注册审查指导原则(2022年第8号通告) [Z]. 2022-03-07 .
[5] 黄丹 , 朱雄增 , 盛伟琪 . 2019版《WHO消化系统肿瘤分类》胃肠上皮性肿瘤部分解读 [J]. 中华病理学杂志 , 2020 , 49 (3 ):209 -213 .DOI: 10.3760/cma.j.issn.0529-5807.2020.03.001 .
[6] 王鲁平 . 胃炎、化生、萎缩与胃异型增生胃癌的关系——2019年第5th WHO消化系统肿瘤分类胃癌前病变某些更新和进展 [J].诊断病理学杂志 , 2019 , 26 (11 ): 713 -715, 封3 . DOI: 10.3969/j.issn.1007-8096.2019.11.001 .
[7] 于颖彦 . 人工智能在病理学研究与应用的进展 [J]. 中华病理学杂志 , 2020 , 49 (5 ): 393 -396 . DOI: 10.3760/cma.j.cn112151-20190924-00525 .
[8] Song Z , Zou S , Zhou W , et al . Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning [J]. Nat Commun , 2020 , 11 (1 ):4294 . DOI: 10.1038/s41467-020-18147-8 .