肺結節(jié)CT影像輔助檢測軟件注冊審查指導原則(征求意見稿)
本指導原則是對肺結節(jié)CT影像輔助檢測軟件的一般要求。注冊申請人應依據(jù)具體產(chǎn)品的特性對注冊申報資料的內(nèi)容進行充實和細化。注冊申請人還應依據(jù)具體產(chǎn)品的特性確定其中的內(nèi)容是否適用,若不適用,需具體闡述其理由及相應的科學依據(jù)。
本指導原則是供注冊申請人和技術審評人員使用的指導性文件,但不包括注冊審批所涉及的行政事項,亦不作為法規(guī)強制執(zhí)行,如果有能夠滿足相關法規(guī)要求的其他方法,也可以采用,但是需要提供詳細的研究資料和驗證資料。應在遵循相關法規(guī)的前提下使用本指導原則。本指導原則是在現(xiàn)行法規(guī)和標準體系以及當前認知水平下制定的,隨著法規(guī)和標準的不斷完善,以及科學技術的不斷發(fā)展,本指導原則相關內(nèi)容也將進行適時的調(diào)整。本指導原則中相關內(nèi)容均應執(zhí)行最新版本的標準。
本指導原則是人工智能醫(yī)療器械指導原則體系的重要組成部分,基于人工智能醫(yī)療器械審評指導原則的通用要求,明確了肺結節(jié)CT圖像輔助檢測軟件的具體要求。
一、適用范圍
本指導原則適用于肺結節(jié)CT影像輔助檢測軟件的產(chǎn)品注冊。按現(xiàn)行《醫(yī)療器械分類目錄》,該類產(chǎn)品分類編碼為21-04-02,管理類別為三類。
肺結節(jié)CT影像輔助決策軟件包括肺結節(jié)CT影像輔助檢測軟件、肺結節(jié)CT影像輔助診斷軟件,前者主要用于疑似肺結節(jié)的檢測或者檢測及影像學分類,后者主要用于疑似肺結節(jié)良惡性等臨床診斷。肺結節(jié)CT影像輔助診斷軟件可參照本指導原則執(zhí)行。
二、注冊審查要點
(一)監(jiān)管信息
明確產(chǎn)品名稱的確定依據(jù)、管理類別、分類編碼、規(guī)格型號、產(chǎn)品組成等信息。
1. 產(chǎn)品名稱
產(chǎn)品命名應符合《醫(yī)療器械通用名稱命名規(guī)則》的要求。根據(jù)產(chǎn)品預期用途可采用肺結節(jié)CT影像輔助檢測軟件進行命名。
2.分類編碼
依據(jù)《醫(yī)療器械分類目錄》,申報產(chǎn)品分類編碼為21-04-02。按第三類醫(yī)療器械管理。
3.注冊單元劃分
根據(jù)產(chǎn)品的技術原理、結構組成、性能指標、適用范圍進行注冊單元劃分。
可以與CT設備一起作為軟件組件注冊,也可以按照獨立軟件注冊。
4.適用范圍
適用范圍需明確處理對象、核心功能、適用人群、目標用戶、臨床用途。
例如,用于胸部CT影像的顯示、處理、測量和分析,可對4mm及以上肺結節(jié)進行識別并分析結節(jié)影像學特征,供經(jīng)培訓合格的醫(yī)師使用,不能單獨用作臨床診療決策依據(jù)。
(二)綜述資料
1. 產(chǎn)品描述
1.1器械及操作原理描述
1.1.1工作原理
需詳述產(chǎn)品的工作原理,例如:基于深度學習技術對醫(yī)學影像進行分析處理、對肺結節(jié)進行分割、檢測、自動識別等。
1.1.2結構組成
結構組成明確交付內(nèi)容和功能模塊,其中交付內(nèi)容包括軟件安裝程序、授權文件、外部軟件環(huán)境安裝程序等軟件程序文件,功能模塊包括客戶端、服務器端(若適用)、云端(若適用),若適用注明選裝、模塊版本?;谌斯ぶ悄芩惴ǎㄈ缟疃葘W習)的功能模塊,需在模塊名稱中注明人工智能(如深度學習)。
1.2 型號規(guī)格
需明確申報產(chǎn)品的型號規(guī)格及發(fā)布版本。產(chǎn)品型號/規(guī)格及其劃分,如同一個注冊單元包含多個型號規(guī)格,需提供產(chǎn)品型號規(guī)格區(qū)分列表或配置表。
1.3研發(fā)歷程
闡述申請注冊產(chǎn)品的研發(fā)背景和目的。如有參考的同類產(chǎn)品或前代產(chǎn)品,需提供同類產(chǎn)品或前代產(chǎn)品的信息,并說明選擇其作為研發(fā)參考的原因。
2.適用范圍和禁忌證
(1)適用范圍
適用范圍需明確處理對象、核心功能、適用人群、目標用戶、臨床用途、軟件與醫(yī)生閱片順序。
例如,肺結節(jié)CT影像輔助檢測軟件產(chǎn)品適用范圍為:用于胸部CT影像的顯示、處理、測量和分析,可對4mm及以上肺結節(jié)進行識別并分析結節(jié)影像學特征,供經(jīng)培訓合格的醫(yī)師使用,不能單獨用作臨床診療決策依據(jù)。
(2)預期使用環(huán)境
需明確設備使用場所和使用環(huán)境要求。
設備使用場所包括:醫(yī)療機構機房等。
使用環(huán)境要求需至少包括:溫度、濕度、大氣壓、光照條件。
(3)適用人群
需詳述產(chǎn)品的適用人群。目標人群信息(如用于篩查、診斷)或無預期治療特定人群的聲明、感興趣器官/疾病/病灶/異常、以及預期使用該產(chǎn)品的目標用戶(如經(jīng)培訓合格的放射科醫(yī)師、技師、??漆t(yī)師等)
(4)禁忌證
明確產(chǎn)品臨床應用的禁忌證以及不推薦使用該產(chǎn)品的情況。
3.產(chǎn)品功能
明確軟件與醫(yī)生閱片順序。結合用戶界面圖示詳細介紹技術要求中對應的臨床功能,如有特殊聲明,如用于檢測繼發(fā)性結節(jié)或更小結節(jié),可以在功能中體現(xiàn)。明確自動、手動、半自動輸出的數(shù)據(jù)、量化分析的具體內(nèi)容、服務器部署(局域網(wǎng)、云端)等。
(三)非臨床資料
1.產(chǎn)品風險管理資料
依據(jù)YY/T 0316《醫(yī)療器械風險管理對醫(yī)療器械的應用》,提供產(chǎn)品風險管理報告。
申請人需重點說明:申報產(chǎn)品的研制階段已對有關可能的危害及產(chǎn)生的風險進行了估計和評價,針對性地實施了降低風險的技術和管理方面的措施。產(chǎn)品性能測試對上述措施的有效性進行了驗證,達到了通用和專用標準的要求。申請人對所有剩余風險進行了評價,全部達到可接受的水平。產(chǎn)品風險分析資料需為申請人關于產(chǎn)品安全性的承諾提供支持。
風險管理報告一般包括以下內(nèi)容:
(1)申報產(chǎn)品的風險管理組織。
(2)申報產(chǎn)品的組成。
(3)申報產(chǎn)品符合的安全標準。
(4)申報產(chǎn)品的預期用途,與安全性有關的特征的判定。
(5)對申報產(chǎn)品的可能危害作出判定(見附錄1)。
(6)對所判定的危害采取的降低風險的控制措施。
(7)對采取控制措施后的剩余風險進行估計和評價。
2.產(chǎn)品技術要求及檢測報告
2.1產(chǎn)品技術要求
依據(jù)《醫(yī)療器械產(chǎn)品技術要求編寫指導原則》進行編制。
2.1.1規(guī)格信息
明確軟件發(fā)布版本和版本命名規(guī)則。軟件版本命名規(guī)則原則上需涵蓋算法驅(qū)動型更新和數(shù)據(jù)驅(qū)動型更新,明確并區(qū)分重大軟件更新和輕微軟件更新,其中重大軟件更新列舉常見典型情況。
明確不同型號間產(chǎn)品差異。
2.1.2性能指標
明確產(chǎn)品處理對象,以及數(shù)據(jù)接口信息,包括成像模態(tài)(如計算機體層攝影)和特定軟硬件名稱及型號(如適用)。
明確軟件所有的臨床功能,如結節(jié)檢出的尺寸范圍(如4-30mm)、結節(jié)密度分類類別(如實性、亞實性的手動分類等)、結節(jié)位置(如肺葉、肺段、肺結節(jié)CT圖像層面、肺內(nèi)、胸膜)、結節(jié)標記方式(緊密包裹結節(jié)的邊界框、不緊密包裹結節(jié)的邊界框)、分割方式(自動分割、半自動分割、手動分割)、測量功能(如體積、最大軸向平面最長直徑、短徑、平均直徑、最大三維直徑、有效直徑、平均密度、面積等)、隨訪評估功能(如倍增時間、數(shù)值參數(shù)的百分比(%)和絕對變化、結節(jié)長軸、短軸、平均直徑、最大三維直徑、有效直徑、體積、平均密度等)、測量精度(相對誤差絕對值的平均值、絕對誤差)、結節(jié)的3D或MIP可視化等。
使用限制明確應用場景(體檢篩查、門診病房)、患者(年齡、地域、疾病類型)、CT設備廠家、探測器排數(shù)、CT掃描參數(shù)(如管電壓、管電流、層厚/層間距、劑量、窗寬窗位、重建方式、顯示方式)、放射學檢查條件(CT增強掃描、CT平掃)、CT圖像質(zhì)量要求(如分辨率、偽影)、結節(jié)檢出的尺寸范圍、結節(jié)密度分類類別。如軟件包含圖像質(zhì)量判定功能,明確軟件使用限制。
若含有基于測評數(shù)據(jù)庫測試的性能指標,其要求參考《人工智能醫(yī)療器械注冊審查指導原則》。
運行環(huán)境,運行在不同計算機系統(tǒng)的產(chǎn)品模塊(如客戶端和云端)需分別描述其運行環(huán)境。
附錄中明確軟件輸出報告及界面數(shù)據(jù)圖示及測評數(shù)據(jù)庫數(shù)據(jù)庫/集信息。服務器部署(局域網(wǎng)、云端)。
2.2檢驗報告
產(chǎn)品需符合GB/T 25000.51 《系統(tǒng)與軟件工程 系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE)第51部分:就緒可用軟件產(chǎn)品(RUSP)的質(zhì)量要求和測試細則》的要求。
注冊人需在軟件研究資料中提交GB/T 25000.51自測報告或委托有資質(zhì)的醫(yī)療器械檢驗機構出具檢驗報告。檢測報告需明確軟件發(fā)布版本信息。
3.軟件研究
(1)基本要求
生產(chǎn)企業(yè)需依據(jù)《醫(yī)療器械軟件注冊審查指導原則》提交相應軟件研究資料。其中,核心算法所述人工智能算法需依據(jù) 《人工智能醫(yī)療器械注冊審查指導原則》提交相應算法研究資料。
生產(chǎn)企業(yè)需依據(jù)《醫(yī)療器械網(wǎng)絡安全注冊審查指導原則》提交網(wǎng)絡安全描述文檔。按照《人工智能醫(yī)療器械注冊審查指導原則》提交數(shù)據(jù)安全資料。
若使用云計算服務,生產(chǎn)企業(yè)需依據(jù)《人工智能醫(yī)療器械注冊審查指導原則》提交相應研究資料。使用云計算服務需明確服務模式、部署模式、核心功能、數(shù)據(jù)接口、網(wǎng)絡安全能力、服務(質(zhì)量)協(xié)議等要求。
軟件版本命名規(guī)則涵蓋算法驅(qū)動型軟件更新和數(shù)據(jù)驅(qū)動型軟件更新;區(qū)分重大軟件更新和輕微軟件更新,其中重大軟件更新需列舉常見典型情況。
(2)軟件安全級別
該類產(chǎn)品的軟件安全性級別為嚴重(C)級。
(3)核心算法
核心算法的選擇可以參考下表,其中采用全新算法(如深度學習)需提供算法研究資料。
表1. 核心算法示例
算法名稱 | 類型 | 用途 | 功能 |
灰度拉伸圖像增強算法 | 公認成熟算法 | 影像增強,用于增強影像對比度,提升算法精度 | 肺葉分割及肺結節(jié)檢測 |
NMS非極大值抑制 | 公認成熟算法 | 目標選擇 | 以預測概率對檢測框進行優(yōu)先級排序,消除冗余檢測框,抑制假陽性檢出 |
基于FPN-ONS的肺結節(jié)檢出算法 | 全新 | 對肺部小結節(jié)進行檢出 | 輔助醫(yī)生檢測肺結節(jié) |
肺分割算法 | 全新 | 對左肺、右肺進行分割,提取肺野區(qū)域 | 過濾肺結節(jié)檢出算法檢出的肺外假陽性,以及肺結節(jié)左右肺定位 |
基于UNET的肺葉分割算法 | 全新 | 對左肺上下葉,右肺上中下葉進行分割 | 肺結節(jié)肺葉定位 |
肺段分割算法 | 全新 | 對左肺8個肺段,右肺10個肺段進行分割 | 肺結節(jié)肺段定位 |
肺結節(jié)分割算法 | 全新 | 對肺結節(jié)進行分割,并計算長短徑 | 輔助醫(yī)生測量肺結節(jié)體積,長短徑 |
肺結節(jié)密度分類算法 | 全新 | 對肺結節(jié)密度類型(磨玻璃,實性,鈣化,部分實性)進行分類 | 輔助醫(yī)生判斷肺結節(jié)密度類型 |
肺結節(jié)惡性程度評估算法 | 全新 | 對肺結節(jié)的良惡性進行評估,輸出惡性程度(0-100%) | 輔助醫(yī)生對肺結節(jié)良惡性進行判斷 |
肺結節(jié)密度測量算法 | 公認成熟算法 | 基于肺結節(jié)分割,測量肺結節(jié)平均HU值 | 輔助醫(yī)生測量肺結節(jié)內(nèi)部HU值 |
…… |
|
|
|
4.算法研究資料
4.1算法基本信息
肺結節(jié)CT影像輔助檢測軟件所涉及的算法一般包括肺結節(jié)檢出算法、肺結節(jié)分類算法和肺結節(jié)測量算法。其中肺結節(jié)檢出算法目的在于在胸部CT影像中利用人工智能技術自動檢出肺結節(jié),輔助醫(yī)生篩查;肺結節(jié)分類算法對每個肺結節(jié)的屬性進行歸類,按照類別不同,肺結節(jié)分類算法包括但不限于肺結節(jié)密度分類算法,肺結節(jié)解剖定位分類算法等;肺結節(jié)測量算法對每個肺結節(jié)的屬性進行量化測量,區(qū)別于肺結節(jié)分類算法,肺結節(jié)測量算法輸出的是連續(xù)的量化值,而肺結節(jié)分類算法輸出的是離散的類別。按照測量屬性不同,肺結節(jié)測量算法包括但不限于肺結節(jié)體積測量算法,肺結節(jié)密度值測量算法和肺結節(jié)長短徑測量算法等。
4.1.1肺結節(jié)檢出算法
肺結節(jié)檢出算法需明確算法的輸入,比如算法采用的是2D,2.5D還是3D的胸部CT圖像作為神經(jīng)網(wǎng)絡的輸入;算法的輸出,比如緊密包裹肺結節(jié)的矩形框端點(二維/三維),肺結節(jié)中心點;
明確算法所采用的神經(jīng)網(wǎng)絡結構,如 Faster RCNN;明確算法訓練采用的損失函數(shù),如交叉熵,L1范數(shù);明確算法設計過程中網(wǎng)絡結構、損失函數(shù)等核心組件選擇和設計的原則、方法與風險考量,如肺結節(jié)大小尺度的差異,肺結節(jié)與背景正負樣本的不均衡性、假陽性、過擬合等;若肺結節(jié)檢出采用多個模型融合,需明確不同模型訓練與推理的方式,以及模型融合的策略,如級聯(lián),多數(shù)投票;
肺結節(jié)檢出存在同一個目標多個重疊框的問題,算法需明確匹配關系所采用的策略,如交并比(IoU),定位框中心距離;
明確算法的流程圖,需包含算法運行前所進行的前處理(圖像縮放、圖像像素值歸一化、圖像重采樣)以及算法運行后所進行的后處理操作(圖像重采樣、非最大化抑制)。明確訓練與部署所采用的框架(如Tensorflow, Pytorch)、算法運行環(huán)境(如內(nèi)存、顯存的需求)。
若使用遷移學習技術,除上述內(nèi)容外還需補充預訓練模型的數(shù)據(jù)集構建、驗證與確認等總結信息,并論證遷移學習的適用性。
4.1.2肺結節(jié)分類算法
肺結節(jié)分類算法包括密度分類算法、肺結節(jié)解剖定位分類。
肺結節(jié)密度分類算法需明確輸出(密度類別),密度類別制定依據(jù)以及臨床適用性。
肺結節(jié)密度分類算法需明確算法的輸入,比如算法采用的是2D,2.5D還是3D的圖像作為神經(jīng)網(wǎng)絡的輸入。若采用2D,需明確肺結節(jié)選取的圖像層面,如中心層面,最大面積層面;明確算法所采用的神經(jīng)網(wǎng)絡結構,如Residual Net,Dense-Net;明確算法訓練采用的損失函數(shù),如交叉熵,F(xiàn)ocal損失函數(shù);損失函數(shù)等核心組件選擇和設計的原則、方法與風險考量,如肺結節(jié)大小尺度的差異,不同類別肺結節(jié)樣本的不均衡性、過擬合等;若肺結節(jié)分類采用多個模型融合,需明確不同模型訓練與推理的方式,以及模型融合的策略,如多數(shù)投票;最后,明確算法的流程圖,訓練與部署所采用的框架(如Tensorflow, Pytorch)、算法運行環(huán)境(如內(nèi)存、顯存的需求)。
肺結節(jié)解剖定位分類中,明確肺結節(jié)定位的類別,如左/右肺定位、肺葉定位、肺段定位。明確算法輸入的類型,如肺結節(jié)二維切片,肺結節(jié)三維圖像塊,若輸入類型為二維切片,明確二維切片選取標準(肺結節(jié)長短徑交點所在切片、肺結節(jié)最大面積切片)。肺結節(jié)解剖定位分類算法需明確實現(xiàn)的機理,如圖像分割算法,圖像分類算法。
4.1.3肺結節(jié)測量算法
針對肺結節(jié)測量算法,明確測量實現(xiàn)的方式。肺結節(jié)體積測量算法、密度值測量算法與長短徑測量算法可以通過肺結節(jié)分割技術來實現(xiàn),也可以通過機器學習中的回歸方法來進行預測。其中密度值測量算法需明確測量的類型,如平均值,標準差,最大值,最小值,中位數(shù)。
若申報產(chǎn)品涉及上述多個算法,需提供算法整體流程圖,明確各個算法調(diào)用先后關系,以及輸入輸出依賴關系。
若使用遷移學習技術,除上述內(nèi)容外還需補充預訓練模型的數(shù)據(jù)集構建、驗證與確認等總結信息,并論證遷移學習的適用性。
4.2算法需求規(guī)范
算法功能需求建議關注數(shù)據(jù)庫需求、算法性能評價指標及制定依據(jù)。
4.2.1數(shù)據(jù)庫需求
算法性能評價需要基于訓練和測試數(shù)據(jù)庫,數(shù)據(jù)庫具體要求詳見附錄2。
4.2.2算法性能評價指標
在指定肺結節(jié)檢出算法評估指標之前,需明確標記匹配的方式,即算法標記目標與參考標準目標的匹配方式,常見的標記匹配方式有按照區(qū)域重疊的比例、中心點的距離、中心是否落入來判斷標記是否匹配;明確算法任務,明確算法訓練和調(diào)優(yōu)過程中不同任務的的評估指標及定義。有關標記匹配方式與評估指標的定義可以參考“人工智能醫(yī)療器械 肺部影像輔助分析軟件算法性能測試方法”5.1.1.1章節(jié)。
明確不同任務的算法評價指標的確定依據(jù)、分層影響因素選擇依據(jù),建議參考《人工智能醫(yī)療器械 肺部影像輔助分析軟件 算法性能測試方法》、肺結節(jié)診療中國專家共識、美國國立綜合癌癥網(wǎng)絡NCCN指南、Fleishner年學會指南、中華醫(yī)學會肺癌臨床診療指南等。
結節(jié)檢出指標包括不限于召回率、精確度、特異度。
結節(jié)分類指標包括不限于靈敏度、特異度、總體的Kappa系數(shù)、準確率。
結節(jié)分割指標包括不限于體積交并比、Dice系數(shù)、Hausdorff距離。
尺寸測量指標包括不限于結節(jié)體積相對誤差率、肺結節(jié)平均徑相對誤差率、肺結節(jié)長徑絕對誤差均值MAE、肺結節(jié)短徑絕對誤差均值MAE。
提供文獻綜述論證評價指標選擇及分層影響因素選擇的合理性。分層分析的影響因素包括年齡、病變類型、大小、層厚、采集協(xié)議等重要變量。
算法質(zhì)量特性包括泛化能力、魯棒性(面向硬件變化的對抗測試、面向軟件前處理的對抗測試、壓力測試)、重復性、一致性、效率。
隨訪評估功能包括倍增時間、數(shù)值參數(shù)的百分比(%)和絕對變化,如結節(jié)長軸、短軸、平均直徑、最大三維直徑、有效直徑、體積、平均HU。
4.2.3算法性能測試基本要求
4.2.3.1結節(jié)檢出
軟件檢出肺結節(jié)的召回率和精確度不低于X%。
召回率和精確度的計算一般針對全體結節(jié)進行。在設置篩選條件后,可以使用篩選后的參考標準與篩選后的AI結果進行匹配。如篩選后假陽性結果難以定義,建議以召回率為主要指標,常見情形為:
-對具體某一種結節(jié)類型,計算結節(jié)的召回率。結節(jié)類型包括實性結節(jié)、純磨玻璃結節(jié)、部分實性結節(jié)、鈣化結節(jié)等。
-對平均直徑、長徑處于某一區(qū)間的結節(jié),計算召回率
-·對類型、尺寸范圍組合的結節(jié),計算召回率。
4.2.3.2結節(jié)分類準確度
明確分類場景,如二分類場景、多分類場景。對于二分類場景下的指標,如軟件能夠?qū)類型的肺結節(jié)進行分類,準確率不低于X%,靈敏度不低于Y%,特異性不低于Z%。總體的Kappa系數(shù)不低于N%;多分類問題可以轉(zhuǎn)化為二分類問題,按每一類進行描述。
4.2.3.3結節(jié)分割
體積交并比不小于XX;如果產(chǎn)品只輸出最大層面則計算最大層面交并比,或DICE系數(shù)不小于XX
4.2.3.4尺寸測量
體積測量偏差±XX%;長徑測量偏差±XX%。長徑小于等于10mm則增加平均直徑允差,大于10mm則增加短徑允差。
4.2.4樣本量
明確樣本量估計的公式、參數(shù)及制定依據(jù)。
4.3數(shù)據(jù)質(zhì)控
建議參考“人工智能醫(yī)療器械注冊審查指導原則”及“人工智能醫(yī)療器械質(zhì)量要求和評價 第2部分:數(shù)據(jù)集通用要求”。
4.3.1明確數(shù)據(jù)庫信息(詳見附錄2)
4.3.2數(shù)據(jù)預處理
數(shù)據(jù)預處理需明確數(shù)據(jù)轉(zhuǎn)移保存的方法。
數(shù)據(jù)入庫前完成清洗,主要是讀取Patient數(shù)據(jù)確定數(shù)據(jù)是否完成脫敏,是否合規(guī);讀取Study和Series的識別碼確定圖像的唯一性,通過Image的標識碼判定圖像是否連續(xù)完整。此外,通過讀取層厚、層間距等信息確定圖像的質(zhì)量并加以篩選。流程圖示例如圖1所示:
4.3.3數(shù)據(jù)標注
數(shù)據(jù)標注建議參考“人工智能醫(yī)療器械質(zhì)量要求和評價 第3部分:數(shù)據(jù)標注通用要求”。
需明確標注任務分類(包括數(shù)據(jù)模態(tài)、執(zhí)行主體、標注結果格式、標注結果性質(zhì)、標注結果形式等維度),提供標注任務描述文檔(標準規(guī)則、標注人員、標注工具、標注環(huán)境、數(shù)據(jù))。其中標注規(guī)則需明確制定依據(jù)并提供參考文獻。標注人員建議列表給出標注、審核、仲裁人員的基本信息,如數(shù)量、醫(yī)療機構、科室、工作年限、職稱、培訓、培訓考核情況、工作量、標注任務、參考的所有受檢者臨床信息(如病理檢測結果)。
標注與質(zhì)控流程建議提供業(yè)務架構、過程組織(任務生成、任務分配、任務實施、質(zhì)量控制、驗收準則及驗收報告。其中業(yè)務架構宜采用流程圖介紹單張圖片的標注、審核、仲裁過程。
如標注工具、標注平臺使用人工智能算法進行輔助標注,需提交標注工具、標注平臺算法性能研究資料。
4.3.4數(shù)據(jù)集構建
依據(jù)《人工智能醫(yī)療器械注冊審查指導原則》指南明確訓練集、調(diào)優(yōu)集、測試集的劃分方法、劃分依據(jù)、數(shù)據(jù)分配比例。
提供查重驗證結果,以證實訓練集、調(diào)優(yōu)集、測試集的樣本兩兩無交集。
明確數(shù)據(jù)擴增需明確擴增的對象、范圍、方式(離線、在線)、方法(如翻轉(zhuǎn)、旋轉(zhuǎn)、鏡像、平移、縮放、濾波、生成對抗網(wǎng)絡等)、倍數(shù)、在線數(shù)據(jù)擴增記錄。
提供擴增數(shù)據(jù)庫與標注數(shù)據(jù)庫樣本量、樣本分布(注明擴增倍數(shù))對比表,以證實擴增數(shù)據(jù)庫樣本量的充分性以及樣本分布的合理性。
提供采用生成對抗網(wǎng)絡數(shù)據(jù)擴增的算法基本信息以及算法選用依據(jù)資料。
4.4算法訓練
算法訓練需明確訓練過程所采用的優(yōu)化器及其相關參數(shù),如Adam,SGD;在算法訓練階段,需明確驗證集的劃分方式,如留出法,交叉驗證法; 需明確訓練目標,即判斷何時停止訓練,如設定最大的訓練epoch數(shù)目,依據(jù)損失函數(shù)判斷損失穩(wěn)定且不繼續(xù)下降,根據(jù)訓練epoch數(shù)量-評估指標曲線判斷評估指標不繼續(xù)提升等。當訓練停止后,明確訓練模型最佳epoch的選擇方法,如在留出法中,根據(jù)留出部分的驗證集選取評價指標最優(yōu)的epoch;在交叉驗證法中,計算多次隨機劃分驗證集的評價指標平均值,選擇最優(yōu)的epoch。同時,結合臨床需求(如靈敏度、精準度),明確算法出廠閾值的選擇與方法,并論證訓練所得模型是否滿足產(chǎn)品既定目標。算法出廠閾值的選擇需提供制定依據(jù)。
算法訓練階段需結合訓練數(shù)據(jù)量-評估指標曲線驗證算法訓練數(shù)據(jù)量的充分性,常用的方式有以最小訓練數(shù)據(jù)量為基礎,逐步增加數(shù)據(jù)量。對于不同的訓練數(shù)據(jù)量,計算對應的評價指標。當評價指標為單一標量時(如靈敏度),訓練數(shù)據(jù)量-評估指標曲線的x軸為訓練數(shù)據(jù)的樣本量(如CT序列個數(shù)),y軸為在使用特定訓練量時,算法在測試集的評價指標。結合訓練數(shù)據(jù)量-評估指標曲線,判斷當訓練數(shù)據(jù)量有限時,評價指標是否隨數(shù)據(jù)量的增加而增加,并在數(shù)據(jù)量達到一定程度后,評價指標趨于平穩(wěn)。當評價指標為曲線時,可考慮根據(jù)不同訓練數(shù)據(jù)量,繪制對應的評價指標曲線,判斷曲線下面積(AUC)是否先隨數(shù)據(jù)量的增加而增加,最后當數(shù)據(jù)量達到一定程度后趨于平穩(wěn)。以fROC曲線為例,在評估訓練數(shù)據(jù)量的充分性時,當訓練數(shù)據(jù)量有限時,fROC曲線下面積需隨數(shù)據(jù)量增加而增加,fROC曲線逐步逼近坐標左上角;當訓練數(shù)據(jù)量達到一定程度后,fROC曲線下面積慢慢趨于穩(wěn)定。
若訓練過程中采用了數(shù)據(jù)擴增的方式,需明確擴增方式,如離線數(shù)據(jù)擴增,在線數(shù)據(jù)擴增。同時,需明確數(shù)據(jù)擴增的方法以及相應的參數(shù)設置,如圖像平移,旋轉(zhuǎn),縮放,彈性形變等。若訓練過程未采用數(shù)據(jù)擴增,需論證未進行數(shù)據(jù)擴增的理由,或者通過對比試驗(數(shù)據(jù)擴增 vs 未數(shù)據(jù)擴增)來論證合理性。
4.5算法驗證與確認
明確算法任務,明確不同任務的算法評價指標的閾值及確定依據(jù)。明確算法標記目標與參考標準的匹配方式和匹配閾值。明確病例水平和結節(jié)水平計算方法及定義一個結節(jié)的處理方法及病例陽性的方法。區(qū)分算法任務制定具體測試方法和結果計算方法。建議參考《人工智能醫(yī)療器械 肺部影像輔助分析軟件 算法性能測試方法》。
4.5.1檢出算法性能評估
基于算法的出廠閾值,明確算法在訓練集,調(diào)優(yōu)集和測試集的假陰性(召回率)與假陽性(精確度),通過比較三個數(shù)據(jù)集的性能來評估算法的泛化性。
若在訓練過程中使用數(shù)據(jù)擴增,需在調(diào)優(yōu)集上比較使用與不使用數(shù)據(jù)擴增對肺結節(jié)檢出性能的影響。
對于肺結節(jié)檢出算法,需分層統(tǒng)計算法對于不同大小和不同密度的肺結節(jié)的檢出效能,可以通過fROC曲線,召回率以及精確度等指標來評價,同時結合臨床需求論述結果的合理性。在肺結節(jié)大小的維度,可將肺結節(jié)分為4-5mm,5-8mm以及8-10mm來進行分層統(tǒng)計,一般而言,肺結節(jié)尺寸越大,檢出的難度越低。在肺結節(jié)密度維度,需明確是二分類還是多分類,需明確密度類型及制定依據(jù),進行密度類型的分層統(tǒng)計。
除此之外,還需考慮性別、年齡、設備廠家、重建方式、層厚/層間距、管電流、管電壓等參數(shù)對肺結節(jié)檢出算法效能的影響。需明確設備廠家,且必須符合DICOM 3.0協(xié)議標準數(shù)據(jù);管電壓考慮70-140 kV,管電流考慮10-400 mA;層厚與層間距需不超過5mm,在分層統(tǒng)計中可以考慮將層厚與層間距歸為兩大類0.625-1.250mm和1.25-5mm,前者為“胸部CT肺結節(jié)數(shù)據(jù)集構建及質(zhì)量控制專家共識”推薦的肺結節(jié)診斷層厚的范圍;重建方式需考慮常見的肺算法與標準算法(軟組織算法)。
在亞組的分層統(tǒng)計中,肺結節(jié)檢出效能需在不同因素下均能取得較好性能。若在某些影響因素下,肺結節(jié)檢出效能存在差異,需進行合理地論證,并在說明書給出使用限制。
需提供算法性能測試報告,至少包括軟件環(huán)境、硬件環(huán)境、測試平臺描述(如適用)、測試集描述、算法性能指標的符合性分析(性能指標的定義、測試通過準則、統(tǒng)計分析)、算法錯誤統(tǒng)計。需包括算法性能及算法質(zhì)量特性、隨訪功能測試結果。
4.6 算法性能綜合分析
結合算法訓練、算法性能評估、臨床評價等結果開展算法性能綜合評價,針對訓練樣本量和測試樣本量過少、測試結果明顯低于算法設計目標、算法性能變異度過大等情況,對產(chǎn)品的適用范圍、使用場景、核心功能進行必要限制。
5.用戶培訓方案
對于軟件安全性級別為嚴重級別的產(chǎn)品,原則上需單獨提供一份用戶培訓方案,包括用戶培訓的計劃、材料、方式、師資等。
用戶培訓需關注以下內(nèi)容:預期用戶要求,如工作年限或執(zhí)業(yè)資格;醫(yī)生必須對軟件結果進行確認,軟件只用于輔助檢測,不能替代醫(yī)生。CT圖像要求,如嚴重呼吸、金屬偽影或有掃描質(zhì)量問題的CT影像慎用;基于臨床試驗驗證,不宜使用該軟件的疾?。?/p>
(四)產(chǎn)品說明書和標簽樣稿
說明書、標簽和包裝標識需符合《醫(yī)療器械說明書和標簽管理規(guī)定》(國家食品藥品監(jiān)督管理總局令第6號)和《醫(yī)療器械軟件技術審查指導原則》、《醫(yī)療器械網(wǎng)絡安全技術審查指導原則》、《人工智能醫(yī)療器械注冊審查指導原則》和相關標準的規(guī)定。
說明書內(nèi)容需重點關注:
1.用戶說明
對預期用戶和推薦用戶培訓的詳細說明。如,預期用戶工作年限或執(zhí)業(yè)資格要求,且需經(jīng)培訓合格。
2.使用限制
若產(chǎn)品采用人工智能黑盒算法,需根據(jù)算法影響因素分析報告,在說明書中明確產(chǎn)品使用限制和必要警示提示信息。
示例:不應僅僅依靠本器械所標識的輸出,應由專業(yè)醫(yī)師對結果進行解釋。
已發(fā)現(xiàn)該器械對于XX的受檢者無效。具有這種疾病/病癥/異常的受檢者不應使用該器械。
對訓練數(shù)據(jù)、測試數(shù)據(jù)與臨床試驗的算法性能評估結果不佳,數(shù)據(jù)量偏少的,此類受檢者使用該器械,應由專業(yè)醫(yī)師結合受檢者的病史、癥狀、體征、其他檢查結果情況綜合給出最終的肺結節(jié)檢出結論,核實是否需要進行一步診療的決策,并對臨床診斷結果負責。
3.注意事項
測量準確性(如圖像長度、CT值平均值、最大值、最小值、面積值、體積、密度、位置坐標)、測量功能警示信息,如體積測量是基于體素個數(shù)的圖形學測量,并不能完全反映人體真實的體積,測量體積僅供醫(yī)生參考。
CT影像質(zhì)量要求,如嚴重呼吸、金屬偽影或有掃描質(zhì)量問題的CT影像慎用;圖像序列未完整包含肺臟全部組織的圖像數(shù)據(jù)禁用。
醫(yī)生必須對軟件結果進行確認,軟件只用于輔助檢測,不能替代醫(yī)生。原始的AI結果應保留,確保軟件結果的可追溯性與可責性。
4.預防措施
需明確與器械使用相關的不良事件,并提供緩解措施建議。不良事件討論需至少包括對假陽性事件和假陰性事件的不良事件的討論。
5.器械描述
需提供以下內(nèi)容:
-算法設計和功能的概述,如有特殊聲明,如用于繼發(fā)性結節(jié)或更小結節(jié)檢測,可以特別說明。
-培訓范例和培訓或開發(fā)數(shù)據(jù)庫的概述
-研發(fā)和調(diào)整算法中所用的受檢者數(shù)據(jù)的參考標準的描述
-與本器械兼容的采集技術
-適當顯示器械標記的要求
6.軟件
需明確軟件發(fā)布版本、提供網(wǎng)絡安全說明和使用指導,明確用戶訪問控制機制、電子接口(含網(wǎng)絡接口、電子數(shù)據(jù)交換接口)及其數(shù)據(jù)類型和技術特征、網(wǎng)絡安全特征配置、數(shù)據(jù)備份與災難恢復、運行環(huán)境(含硬件配置、外部軟件環(huán)境、網(wǎng)絡環(huán)境,若適用)、安全軟件兼容性列表(若適用)、外部軟件環(huán)境與安全軟件更新(若適用)、現(xiàn)成軟件清單(SBOM,若適用)等要求。
7.產(chǎn)品接口和聯(lián)合使用設備
需明確對配合使用的圖像工作站和PACS適當顯示器械標記的要求。
需明確CT設備兼容性與掃描參數(shù)要求(如層厚、排數(shù))、
8.算法訓練總結
訓練集基本信息、訓練指標與結果
9.算法性能評估總結
-算法輸入與輸出
-測試集基本信息
-用于確定器械標記的每個區(qū)域的性質(zhì)的評分標準
-每個可用器械操作點的總體敏感度和假陽性率指標
-分層分析(如,根據(jù)病變大小、病變類型、采集參數(shù)、成像或數(shù)據(jù)特征)
-獨立FROC性能(如適用),需和操作特性曲線一起說明。
-測試結果
10.臨床試驗總結
需包括臨床試驗設計基本類型、研究對象(受試者及閱片者情況)、評價指標,金標準、對收集臨床信息方法的描述、統(tǒng)計方法描述、樣本量,臨床試驗結果(含各結節(jié)尺寸、密度影、閱片者亞組情況)。
11.公開數(shù)據(jù)庫及測試結果(如有)
12.第三方測評數(shù)據(jù)庫及測試結果(如有)
13.決策指標定義(或提供決策指標定義所依據(jù)的臨床指南、專家共識等參考文獻)等信息。
三、參考文獻
[1]國家市場監(jiān)督管理總局. 醫(yī)療器械注冊與備案管理辦法(市場監(jiān)管總局令第47號),2021.8
[2]原國家食品藥品監(jiān)督管理總局. 醫(yī)療器械說明書和標簽管理規(guī)定(總局令第6號),2014.7
[3]國家藥品監(jiān)督管理局. 醫(yī)療器械注冊申報資料要求和批準證明文件格式(2021年第121號),2021.9
[4]國家藥品監(jiān)督管理局. 醫(yī)療器械通用名稱命名指導原則(2019年第99號通告),2019.12
[5]國家藥品監(jiān)督管理局. 醫(yī)療器械安全和性能基本原則(2020年第18號通告),2020.3
[6]原國家食品藥品監(jiān)督管理總局.醫(yī)療器械產(chǎn)品技術要求編寫指導原則(2014年第9號通告),2014.5
[7]國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心. 醫(yī)療器械軟件技術審查指導原則(第二版)(征求意見稿),2020.6
[8] 國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心. 醫(yī)療器械網(wǎng)絡安全技術審查指導原則(第二版)(征求意見稿),2020.9
[9]原國家食品藥品監(jiān)督管理總局. 移動醫(yī)療器械注冊技術審查指導原則(2017年第222號通告),2017.12
[10]國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心. 深度學習輔助決策醫(yī)療器械軟件審評要點(2019年第7號通告),2019.7
[11] 國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心. 肺炎CT影像輔助分診與評估軟件審評要點(試行)(2020年第8號通告),2020.3
[12]國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心. 人工智能醫(yī)療器械審查指導原則(征求意見稿),2021.6
[13]國家藥品監(jiān)督管理局. 醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范附錄獨立軟件(2019年第43號通告),2019.7
[14] 國家藥品監(jiān)督管理局. 醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范獨立軟件現(xiàn)場檢查指導原則(藥監(jiān)綜械管〔2020〕57號),2020.5
[15] 國家藥品監(jiān)督管理局. 人工智能類醫(yī)用軟件產(chǎn)品分類界定指導原則(2021年第47號)),2021.7
[16] 國家藥品監(jiān)督管理局標準管理中心. 輔助決策類醫(yī)用軟件產(chǎn)品分類界定指導原則(征求意見稿),2021.6
[17] 國家衛(wèi)生健康委員會. 人工智能輔助診斷技術管理規(guī)范(國衛(wèi)辦醫(yī)發(fā)〔2017〕7號),2017.2
[18]國家衛(wèi)生健康委員會. 人工智能輔助治療技術管理規(guī)范(國衛(wèi)辦醫(yī)發(fā)〔2017〕7號),2017.2
[19]YY/T 0287-2017 醫(yī)療器械 質(zhì)量管理體系 用于法規(guī)的要求[S]
[20] YY/T 0316-2016 醫(yī)療器械 風險管理對醫(yī)療器械的應用[S]
[21] YY/T 0664-2020 醫(yī)療器械軟件 軟件生存周期過程[S]
[22] YY/T 1406.1-2016 醫(yī)療器械軟件 第1部分:YY/T 0316應用于醫(yī)療器械軟件的指南[S]
[23]GB/T 25000.10-2016 系統(tǒng)與軟件工程 系統(tǒng)與軟件質(zhì)量要求與評價(SQuaRE)系統(tǒng)與軟件質(zhì)量模型[S]
[24]GB/T 39725-2020 信息安全技術 健康醫(yī)療數(shù)據(jù)安全指南 [S]
[25]YY/T 1833.1人工智能醫(yī)療器械 質(zhì)量要求和評價 第1部分:術語(報批稿) [S]
[26] YY/T 1833.2人工智能醫(yī)療器械 質(zhì)量要求和評價 第2部分:數(shù)據(jù)集通用要求(報批稿) [S]
[27]YY/T 1833.3人工智能醫(yī)療器械 質(zhì)量要求和評價 第3部分:數(shù)據(jù)標注通用要求(報批稿) [S]
[28] YY/T 人工智能醫(yī)療器械 肺部影像輔助分析軟件 算法性能測試方法(報批稿) [S]
[29 ]AIMDICP-WG6-2020-002 基于胸部CT的肺結節(jié)影像輔助決策產(chǎn)品性能指標和測試方法 [S]
[30] AIMDICP-WG12-2021-001 醫(yī)學人工智能技術學名詞(草稿) [S]
[31] FDA. Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data, 2012.7
[32] FDA. Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data, 2012.7
[33] FDA. Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML) - Based Software as a Medical Device (SaMD) Draft, 2019.5
[34] FDA. Artificial Intelligence and Machine Learning(AI/ ML) Software as a Medical Device(SaMD) Action Plan, 2021.1
[38] 胸部CT肺結節(jié)數(shù)據(jù)集構建及質(zhì)量控制專家共識[J].中華放射學雜志,2021,55(02):104-110.