醫(yī)療器械真實世界研究設(shè)計和統(tǒng)計分析注冊審查指導(dǎo)原則（2024年第3號）

發(fā)布日期：2024-01-15 閱讀量：次

附件：醫(yī)療器械真實世界研究設(shè)計和統(tǒng)計分析注冊審查指導(dǎo)原則（2024年第3號）.doc

醫(yī)療器械真實世界研究設(shè)計和統(tǒng)計分析注冊審查指導(dǎo)原則（2024年第3號）(圖1)

醫(yī)療器械真實世界研究設(shè)計和統(tǒng)計分析
注冊審查指導(dǎo)原則

本指導(dǎo)原則旨在規(guī)范和合理引導(dǎo)真實世界數(shù)據(jù)在醫(yī)療器械臨床評價中的應(yīng)用，為申請人開展真實世界研究以及監(jiān)管部門技術(shù)審評提供技術(shù)指導(dǎo)。

本指導(dǎo)原則是供注冊申請人和技術(shù)審評人員使用的指導(dǎo)性文件，但不包括注冊審批所涉及的行政事項，亦不作為法規(guī)強制執(zhí)行，需在遵循相關(guān)法規(guī)和強制性標準的前提下使用本指導(dǎo)原則。如果有能夠滿足相關(guān)法規(guī)要求的其他方法，也可以采用，但是需要提供詳細的研究資料和驗證資料。

本指導(dǎo)原則是在現(xiàn)行法規(guī)和標準體系以及當前認知水平下制定的，隨著法規(guī)和標準的不斷完善，以及科學(xué)技術(shù)的不斷發(fā)展，本指導(dǎo)原則的相關(guān)內(nèi)容也將進行適時調(diào)整。

一、適用范圍

本指導(dǎo)原則適用于醫(yī)療器械真實世界研究，不適用于按醫(yī)療器械管理的體外診斷試劑真實世界研究。本指導(dǎo)原則在《真實世界數(shù)據(jù)用于醫(yī)療器械臨床評價技術(shù)指導(dǎo)原則（試行）》的基礎(chǔ)上，結(jié)合目前積累的經(jīng)驗，進一步細化醫(yī)療器械真實世界研究設(shè)計和統(tǒng)計分析的一般要求。在當前發(fā)展階段，真實世界證據(jù)在醫(yī)療器械臨床評價中，主要作為已有臨床證據(jù)的補充。

二、常見真實世界研究類型及其應(yīng)用情形

（一）試驗性真實世界研究

實效性隨機對照試驗（pragmatic Randomized Controlled Trial, pRCT）是試驗性真實世界研究的一種常見類型。

pRCT是指在真實或接近真實醫(yī)療環(huán)境下，采用隨機、對照的設(shè)計比較臨床實踐中不同干預(yù)措施的治療結(jié)果的研究，其主要目的是評估干預(yù)措施在常規(guī)臨床實踐中的效果。pRCT融合了隨機化和真實世界數(shù)據(jù)優(yōu)勢，較好地控制了偏倚，其研究結(jié)果可為干預(yù)措施效果評價提供較高質(zhì)量的真實世界證據(jù)。pRCT研究人群入選標準通常較廣泛，人群代表性更好，但人群異質(zhì)性通常較高，為保證統(tǒng)計分析具有足夠的檢驗效能，pRCT所需樣本量相對較大，適合需要生成在更廣泛人群和臨床情形中的臨床證據(jù)的應(yīng)用情形。例如，實效性隨機對照試驗可提供器械在不同亞組患者人群中的安全性、有效性數(shù)據(jù)，為器械受益風(fēng)險評估提供更多有效信息。

（二）觀察性真實世界研究

1.描述性研究設(shè)計

常見的描述性研究設(shè)計包括橫斷面設(shè)計、病例報告和病例系列設(shè)計等，不用于統(tǒng)計學(xué)上的因果推斷。

在橫斷面設(shè)計中，全部測量在特定時點完成，主要用于描述接受了某種暴露因素（即：使用了待研究器械）的患者基本特征及健康狀況、疾病恢復(fù)情況等分布情況，橫斷面設(shè)計可用于器械不良事件的描述性統(tǒng)計研究，為后續(xù)研究提供線索。病例報告設(shè)計用于描述臨床一個或少數(shù)幾個病例的詳細臨床特征，通常不描述事物的集中趨勢或離散程度，病例系列設(shè)計是對多個病例資料進行歸納和總結(jié)，病例報告和病例系列設(shè)計提供對罕見或不尋常疾病/并發(fā)癥的深入了解，特別是對于比較新的器械，其能夠及時發(fā)現(xiàn)和記錄其可能的副作用或并發(fā)癥，同時為后續(xù)的更為嚴格和系統(tǒng)的研究提供線索和基礎(chǔ)。

2.隊列設(shè)計

在器械安全有效性評價中，隊列研究是將某一特定人群按是否使用待研究器械以及使用不同器械分為不同的組別，追蹤觀察各組的結(jié)局發(fā)生的情況，比較各組間結(jié)局發(fā)生率差異，從而判定器械與結(jié)局之間有無關(guān)聯(lián)及關(guān)聯(lián)程度大小的一種觀察性研究方法。隊列設(shè)計根據(jù)研究時期的不同可分為前瞻性隊列、回顧性隊列、雙向性隊列。前瞻性隊列研究中，根據(jù)預(yù)先制定的研究方案進行數(shù)據(jù)收集，可較好的控制數(shù)據(jù)質(zhì)量?；仡櫺躁犃醒芯恐校瑢^去已經(jīng)產(chǎn)生的數(shù)據(jù)進行分析，數(shù)據(jù)質(zhì)量可控性差，分析前建議先對數(shù)據(jù)的完整性和準確性進行確認。雙向性隊列在回顧性隊列研究的基礎(chǔ)上，繼續(xù)前瞻性觀察一段時間，其是將前瞻性隊列研究與回顧性隊列研究結(jié)合起來的一種設(shè)計，兼有上述兩類的優(yōu)點，一定程度上彌補了各自的不足。目前基于登記數(shù)據(jù)庫開展的隊列研究越來越多，例如利用CathPCI登記數(shù)據(jù)庫比較Mynx血管閉合裝置與其他同類已上市產(chǎn)品安全性事件發(fā)生率的回顧性隊列研究，利用國家關(guān)節(jié)登記數(shù)據(jù)庫比較不同制造商設(shè)計關(guān)節(jié)假體的翻修率等。

3.病例對照及其衍生設(shè)計

病例對照研究是以發(fā)生了結(jié)局事件的患者作為病例組，未發(fā)生結(jié)局事件的患者作為對照組，比較病例組與對照組使用待研究器械的比例，從而研究待研究器械與結(jié)局事件之間的關(guān)聯(lián)性。回憶偏倚、對照組設(shè)置相關(guān)的選擇偏倚、無法提供發(fā)病率等是病例對照設(shè)計的較為突出的限制。當待研究器械需觀察的臨床結(jié)局發(fā)生率較低時，采用實效性隨機對照試驗或隊列設(shè)計所需樣本量過大而不具有可行性時，可考慮采用病例對照設(shè)計。

病例對照衍生設(shè)計包括巢式病例對照和病例隊列設(shè)計等，兩種衍生設(shè)計兼具隊列研究與病例對照研究的優(yōu)點，在結(jié)局發(fā)生前收集暴露因素、混雜因素等信息；器械暴露組和對照組來源于同一人群，人群可比性更好；不需對隊列全部人群進行測量?，F(xiàn)階段，基于登記數(shù)據(jù)庫開展巢式病例對照設(shè)計越來越多。

4.病例交叉設(shè)計

病例交叉設(shè)計是一種常用于研究短期暴露與急性結(jié)局事件之間關(guān)系的觀察性研究設(shè)計。在器械安全有效性評價中，每個病例在事件發(fā)生前后的不同時間段內(nèi)充當自身對照，通過比較病例在事件發(fā)生前后對使用待研究器械情況來評估使用該器械與事件之間的關(guān)系。病例交叉設(shè)計可較好的控制不隨時間變化的混雜變量，但也存在一些局限性，包括暴露效應(yīng)期需較短，依賴患者回憶過去的暴露等。

（三）真實世界數(shù)據(jù)作為單臂試驗外部對照

外部對照是指從其他試驗或歷史病例中找一組特征相似的研究對象作為對照組，真實世界數(shù)據(jù)作為單臂試驗外部對照，是外部對照設(shè)計的其中一種。本指導(dǎo)原則不包含該類型設(shè)計具體的使用情形以及研究設(shè)計、統(tǒng)計分析等要求，相關(guān)內(nèi)容另行制定指導(dǎo)原則。

三、真實世界研究方案設(shè)計考慮

（一）研究背景和目的

根據(jù)產(chǎn)品預(yù)期適用范圍和產(chǎn)品技術(shù)特征，結(jié)合已有證據(jù)，在方案中闡明真實世界研究擬解決的安全有效性問題，明確研究目的。

（四）可行性評估

在研究目的確定后，申請人需評估是否具備開展真實世界研究的客觀條件，主要考慮現(xiàn)有經(jīng)驗和知識積累是否足以事先確定影響臨床結(jié)局的混雜變量，以及所需變量數(shù)據(jù)是否具有可獲得性、數(shù)據(jù)量是否充分，數(shù)據(jù)質(zhì)量是否滿足需求。

首先，是否可事先確定影響臨床結(jié)局的變量取決于現(xiàn)階段對疾病、診療方法、器械臨床相關(guān)知識和經(jīng)驗的積累程度，對于研究經(jīng)驗和知識積累還不充分的領(lǐng)域，申請人無法確保鑒別出對結(jié)局有重要影響的混雜變量，開展觀察性真實世界研究時不能完全排除存在未測量或未調(diào)整混雜變量，研究結(jié)果的偏倚大小無法判定，結(jié)論穩(wěn)健性難以保證。

其次，需評估變量數(shù)據(jù)是否可及和質(zhì)量是否充分。在真實世界中，數(shù)據(jù)缺失較為常見。來源于真實世界的數(shù)據(jù)可能缺乏院外隨訪數(shù)據(jù)、結(jié)局指標（如功能評分、疼痛評分等）、影像學(xué)檢查等。除此之外，還需考慮真實世界數(shù)據(jù)觀察時間是否滿足研究目的，研究人群是否具有代表性，前瞻性收集數(shù)據(jù)研究中樣本量是否可保證足夠的檢驗效能，現(xiàn)有數(shù)據(jù)質(zhì)量是否可滿足統(tǒng)計分析要求等。

（五）確定恰當?shù)恼鎸嵤澜缪芯吭O(shè)計類型

申請人根據(jù)確定的研究目的，參考第二章內(nèi)容，選擇恰當?shù)难芯吭O(shè)計類型。如上所述，存在不同的真實世界研究設(shè)計類型，包括pRCT，隊列研究、病例對照等，不同設(shè)計特點不同，適合應(yīng)用的場景不同。

（六）研究流程圖

考慮到不同類型真實世界研究實施過程存在差異，建議將實施過程以流程圖的形式呈現(xiàn)，流程圖按照時間順序呈現(xiàn)研究過程中各具體事項（如倫理審查、人群篩選、接受干預(yù)措施、器械暴露后的數(shù)據(jù)收集相關(guān)事項（如檢驗、檢查、評分量表填寫等）以及各環(huán)節(jié)的質(zhì)量控制措施等）。

（七）研究人群

研究方案需預(yù)先明確研究目標人群，目標人群定義清晰明確，避免歧義和模糊的表達，預(yù)先規(guī)定清晰的納入和排除標準。

對于有多次器械使用記錄的人群，需預(yù)先清晰規(guī)定納入研究的標準，如在使用該器械前6個月無使用同類器械的記錄，或?qū)⒈┞抖x為首次使用目標器械。預(yù)先核實不同臨床機構(gòu)是否采用相同的診斷標準，確保符合入選標準的患者均納入研究。對于回顧性研究設(shè)計，需注意評估采用的數(shù)據(jù)源對預(yù)期適用人群的代表性。

（八）器械暴露

pRCT與傳統(tǒng)RCT均采用隨機方式?jīng)Q定器械暴露與否，但對于觀察性真實世界研究，患者具體使用何種器械并非通過隨機分組決定，而是在真實世界中根據(jù)實際情況（如醫(yī)生偏好、患者病情）而定，存在選擇偏倚風(fēng)險。

對于回顧性真實世界數(shù)據(jù)，通常通過數(shù)據(jù)中使用器械的記錄（如費用清單、手術(shù)記錄）來判斷患者具體使用了何種器械，需核實器械信息記錄是否完整、準確，至少需包括器械制造商、型號規(guī)格信息。建議采用恰當?shù)姆椒▽ζ餍当┞缎畔⒌臏蚀_性進行驗證。

（九）對照組

實效性隨機對照設(shè)計中，通過隨機分組形成對照組。對于觀察性真實世界設(shè)計，如隊列研究、病例對照等，需根據(jù)研究目的以及設(shè)計類型，采用恰當?shù)姆绞叫纬蓪φ战M，盡可能確?；祀s變量在組間分布均衡是設(shè)置對照組的基本原則。根據(jù)研究目的，對照組可以是單一或多個制造商已上市同類產(chǎn)品，也可以是非器械類型的其他干預(yù)措施或安慰對照組。

隊列研究設(shè)計中，依據(jù)研究目的可選擇使用了其他同類已上市產(chǎn)品的患者構(gòu)成對照組人群，也可選擇未使用同類器械而使用了藥品或其他診療方法的患者構(gòu)成對照組人群。病例對照設(shè)計中，通常采用匹配的方法為病例組構(gòu)建相應(yīng)的對照組，巢式病例對照設(shè)計從同時期沒有發(fā)生結(jié)局的研究對象抽樣匹配形成對照組。病例隊列設(shè)計在研究開始時從整個隊列人群中隨機抽樣形成對照組，該對照組可重復(fù)用于不同結(jié)局研究，而巢式病例對照設(shè)計中對照組不能重復(fù)使用。

（十）評價指標

建議在研究方案中描述評價指標的選擇依據(jù)和合理性，明確規(guī)定各評價指標的觀察目的、定義、觀察時間窗、指標類型、測定方法、計算公式（如適用）、判定標準（適用于定性指標和等級指標）等，并明確規(guī)定主要評價指標、次要評價指標和安全性評價指標。

對于回顧性真實世界研究，需注意確保不同臨床機構(gòu)對結(jié)局的定義相同，不漏記患者發(fā)生的結(jié)局事件。建議盡量選擇客觀指標，如死亡等，謹慎選擇功能性評分等偏倚風(fēng)險較大的主觀性指標。

（十一）隨訪時間

需根據(jù)研究目的和設(shè)計明確隨訪時間的起始點及隨訪持續(xù)時間。對于植入性器械，通常為植入手術(shù)當天作為起始隨訪時間，對于多次治療為一個完整療程的器械，起始隨訪時間為最后一次治療完成當天，注意治療過程中的安全性事件也需觀察。在回顧性真實世界研究中，研究者通常是通過病歷、數(shù)據(jù)庫或其他已有記錄來收集數(shù)據(jù)，隨訪時間的長度和起始點可能受到現(xiàn)有數(shù)據(jù)可用性的限制。對于結(jié)局癥狀存在潛伏期或干預(yù)效果存在延遲的情形，可考慮在暴露和結(jié)局之間設(shè)置時間窗以防止逆因果混淆。

（十二）計算樣本量和檢驗效能

對于回顧性真實世界研究，可基于可用的樣本量估算檢驗效能。對于前瞻性真實世界研究，可基于預(yù)估的參數(shù)值計算樣本量。不同研究設(shè)計估算樣本量的方式不同，例如，橫斷面研究可基于預(yù)期達到的估計精度估算樣本量，有對照組的研究設(shè)計基于組間比較差異、相對風(fēng)險度、比值比等估算樣本量。

對于因消除混雜偏倚涉及變量調(diào)整的真實世界研究，由于需預(yù)先估計的參數(shù)值較多，某些參數(shù)估算可能缺乏文獻數(shù)據(jù)支持，樣本量估算相較于傳統(tǒng)隨機對照臨床試驗復(fù)雜，需考慮的因素更多。例如，對于基于傾向性評分的分層調(diào)整統(tǒng)計需考慮層內(nèi)效應(yīng)值大?。ㄈ缬行?、比值比、發(fā)生率等）、每層器械暴露組分配概率、傾向性評分重疊程度等。當模型過于復(fù)雜時，可以考慮使用基于模擬研究的方法幫助估計樣本量。

（十三）質(zhì)量控制

1.數(shù)據(jù)質(zhì)量

（1）數(shù)據(jù)收集

建議制定完善的病例報告表和變量詞典，依據(jù)病例報告表和變量詞典收集和記錄數(shù)據(jù)，并制定數(shù)據(jù)核查方案，確保數(shù)據(jù)無誤。

前瞻性收集數(shù)據(jù)的研究設(shè)計中，建議事先規(guī)定具體的診斷、結(jié)局定義和判斷標準，統(tǒng)一檢驗、檢查和評分量表等評價項目的標準實施過程，確保收集數(shù)據(jù)的準確性和一致性。對于回顧性真實世界研究，需列明擬采用的數(shù)據(jù)源基本情況，包括所含的字段信息、患者數(shù)量、數(shù)據(jù)缺失、數(shù)據(jù)記錄準確性等數(shù)據(jù)質(zhì)量信息。方案中明確數(shù)據(jù)清洗的步驟與方法，若涉及多個數(shù)據(jù)庫，方案中需明確鏈接的具體方法，以及數(shù)據(jù)鏈接準確性的驗證方法。對使用到的各變量數(shù)據(jù)的準確性進行驗證，采用算法自動提取數(shù)據(jù)時，對算法提取準確性進行驗證。

（2）質(zhì)量評價

見《真實世界數(shù)據(jù)用于醫(yī)療器械臨床評價技術(shù)指導(dǎo)原則（試行）》第三章內(nèi)容，建議對照該導(dǎo)則相關(guān)要求以表格形式逐項呈現(xiàn)數(shù)據(jù)質(zhì)量評價結(jié)果，作為真實世界研究報告內(nèi)容的一部分。

2.偏倚風(fēng)險

偏倚是真實世界研究中需要特別關(guān)注和解決的問題，在真實世界研究設(shè)計、實施、分析和報告等各階段均可能存在偏倚，真實世界研究方案需列出可能存在的偏倚、避免偏倚的策略以及在分析階段處理偏倚的詳細規(guī)定。對于觀察性真實世界研究，可參考非隨機干預(yù)性臨床研究ROBINS-I評價工具對整體研究的偏倚風(fēng)險進行評估。偏倚類型可以劃分為選擇偏倚、信息偏倚和混雜偏倚三大類，向下包括更多細分偏倚類型，不同研究存在的偏倚類型通常不同，部分僅列舉部分真實世界研究常見的的偏倚類型，在實操中，申請人需根據(jù)實際情況具體分析研究中存在的各種偏倚風(fēng)險。

（1）選擇偏倚

① 研究人群納入過程中產(chǎn)生的選擇偏倚

確保對于不同組別始終采取相同的入選/排除標準，從相同的人群中篩選患者對于避免選擇偏倚非常關(guān)鍵。建議按照時間順序，連續(xù)不斷地將符合入選/排除標準的研究對象納入研究，以避免挑選患者，同時記錄未納入研究的病人及其原因。對于設(shè)置對照的研究，尤其是病例對照設(shè)計，需在設(shè)計中采取避免入院率偏倚的措施，如符合入選/排除標準的人群全部納入，或當數(shù)據(jù)量過大時，病例組和對照組從同一人群中隨機抽樣確定。除此之外，還需注意自愿者偏倚等選擇偏倚。

② 失訪導(dǎo)致的選擇偏倚

需在真實世界研究方案中盡可能設(shè)置充分的預(yù)防失訪的措施，包括發(fā)生失訪后可采用的補救措施，如通過額外的隨訪方式（如電話、登門拜訪）彌補相關(guān)數(shù)據(jù)，與其他數(shù)據(jù)源（如醫(yī)保數(shù)據(jù)、死亡登記數(shù)據(jù)等）鏈接等；

針對使用回顧性數(shù)據(jù)時可能存在的數(shù)據(jù)缺失情況，需在研究方案中預(yù)先明確數(shù)據(jù)缺失處理的方法和原則。針對缺失數(shù)據(jù)，需盡可能調(diào)查清楚失訪的原因，若失訪與干預(yù)措施或結(jié)局無關(guān)，可根據(jù)方案中預(yù)先規(guī)定的填補方法和原則進行填補。也可采用保守的方式進行填補，例如，器械暴露組填補為無效，對照組填補為有效。

（3）信息偏倚

① 干預(yù)措施偏離

在真實世界研究中，治療中途由于各種原因干預(yù)措施可能發(fā)生偏離，例如患者主動要求更換治療方式、醫(yī)生改變治療策略等，多次治療的干預(yù)措施（如血液透析）或治療時間長的干預(yù)措施（如呼吸機、體外膜肺氧合器），有更大可能出現(xiàn)干預(yù)措施偏離。在開展真實世界研究時，需提前考慮待研究器械出現(xiàn)此類偏倚風(fēng)險的程度大小，制定措施減少干預(yù)措施偏倚的風(fēng)險，同時全面、準確記錄研究過程中的干預(yù)措施偏倚情況。

對于回顧性真實世界研究，在選擇真實世界數(shù)據(jù)源時，需考慮該數(shù)據(jù)源是否詳盡和準確地記錄所用治療方式及其治療途中發(fā)生的變化。在臨床實踐中，還可能出現(xiàn)干預(yù)措施記錄錯誤，如所用的器械制造商、型號規(guī)格記錄錯誤，導(dǎo)致干預(yù)措施相關(guān)的信息偏倚，當懷疑存在記錄錯誤的可能時，可考慮通過患者其他信息進行驗證，如影像學(xué)下植入物形態(tài)、標記點特征、費用單上的價格等。

② 測量偏倚

測量工具、測量人員、測量方法和過程均可引入測量偏倚，優(yōu)先考慮采取措施避免或減少測量偏倚，例如，制定詳細的操作手冊、培訓(xùn)工作人員、采用標準化的數(shù)據(jù)收集程序、核查數(shù)據(jù)質(zhì)量、使用統(tǒng)一的方法收集、測量和解釋信息；以下從三方面舉例常見的減少測量偏倚的措施：

患者填寫量表、回答問卷產(chǎn)生的測量偏倚：設(shè)置充分的培訓(xùn)，使患者能正確、一致的理解問題。

評價者來源的測量偏倚：對評價者施加盲法、選擇客觀的硬終點指標（如死亡等）、對評價者開展培訓(xùn)，不同評價者重復(fù)測量。

評價工具來源的測量偏倚：使用信效度經(jīng)過驗證的測量方法，使用精準的儀器。

對于回顧性真實世界研究，由于研究開始前數(shù)據(jù)測量工作已完成，以上適用于前瞻性真實世界研究的措施已無法實施，僅能對研究中涉及到的測量的準確性、一致性進行事后評估，若評估發(fā)現(xiàn)回顧性數(shù)據(jù)存在顯著的測量偏倚，或無法評估回顧性數(shù)據(jù)的測量偏倚，建議謹慎使用該真實世界數(shù)據(jù)源開展研究。

③ 記錄不準確

研究過程中，暴露信息、結(jié)局信息以及其他等任何信息記錄的不準確或者錯誤都可能導(dǎo)致信息偏倚，應(yīng)對此類信息偏倚，可考慮對數(shù)據(jù)記錄者進行充分的培訓(xùn)，確保所有數(shù)據(jù)都按照統(tǒng)一的、預(yù)先定義的標準規(guī)范收集。定期進行數(shù)據(jù)審核和質(zhì)量控制檢查，確保數(shù)據(jù)的準確性和完整性。對于回顧性真實世界研究，需重點關(guān)注回顧性數(shù)據(jù)記錄的準確性，對其開展評估和驗證，確保數(shù)據(jù)記錄具有足夠的準確度后方可用于真實世界研究。

④ 回憶偏倚

盡量在設(shè)計階段避免采用研究人群回憶的方式收集信息，盡量在數(shù)據(jù)產(chǎn)生時即記錄至文檔中。巢式病例對照設(shè)計可避免傳統(tǒng)病例對照通過回憶獲得暴露信息、基線數(shù)據(jù)等帶來的回憶偏倚。

有些情況下，查看患者其他健康醫(yī)療資料可能有助于確認患者回憶是否準確。例如，如果患者回憶稱自身接受干預(yù)措施后，有疼痛或發(fā)炎，可通過審閱該患者對應(yīng)日期健康記錄、服藥記錄、電子病歷資料中是否存在相關(guān)信息，以進一步佐證。

⑤ 報告偏倚

選擇性呈現(xiàn)有利的結(jié)果會造成選擇報告偏倚，避免報告偏倚的最佳方法是在方案或統(tǒng)計分析計劃中預(yù)先規(guī)定，建議將研究設(shè)計信息在公共網(wǎng)站（如中國臨床試驗注冊中心、ClinicalTrials.gov、Open Science或ISPOR真實世界證據(jù)登記等）預(yù)先登記。

對于使用回顧性數(shù)據(jù)開展真實世界研究的情形，申請人需設(shè)置措施確保在正式統(tǒng)計分析前研究人員不可接觸結(jié)局數(shù)據(jù)，避免研究人員在研究開始前為得到期望的統(tǒng)計結(jié)果開展數(shù)據(jù)挖掘行為。例如，在應(yīng)用基于傾向性評分的統(tǒng)計分析方法時，可采取兩階段設(shè)計。第一階段需構(gòu)建結(jié)局數(shù)據(jù)防火墻、確定獨立的統(tǒng)計人員、確定混雜變量、建立傾向性評分估計模型，直至第一階段達到令人滿意的混雜變量平衡后，再實施第二階段的統(tǒng)計分析計劃。

（4）混雜偏倚

混雜偏倚是指暴露因素與臨床結(jié)局的相關(guān)（關(guān)聯(lián)）程度受到其他因素的歪曲或干擾，使得呈現(xiàn)的研究變量與評價指標或結(jié)局變量的關(guān)系不是真實的，而是疊加了混雜效應(yīng)的具有偏差的關(guān)系。

隨機可同時控制已測量和未測量混雜因素，是控制混雜的最有力手段。pRCT以外的其他真實世界研究設(shè)計均不采用隨機分組的方式，應(yīng)用時需謹慎、全面評估潛在的各種混雜偏倚，并采取有效的措施盡可能的減少混雜偏倚。在設(shè)計階段考慮使用限制、匹配和分層設(shè)計等其他方法控制混雜。在分析階段，可應(yīng)用分層分析、多變量回歸分析、基于傾向性評分的調(diào)整方法等調(diào)整統(tǒng)計方法對混雜進行控制。值得注意的是以上方法均僅能控制已知且可測量的混雜。

如果所有混雜因素均已收集并正確建模，且樣本量足夠，理論上通過適當分析方法可消除混雜偏倚。然而在實踐中難以獲知全部混雜因素數(shù)據(jù)，部分混雜因素未知或不能測量，此部分偏倚稱為未測量混雜偏倚。盡管可通過工具變量、E值（E-value）、敏感性分析等方法評估未測量混雜對結(jié)論的潛在影響，準確估計未測量混雜偏倚對結(jié)論的影響是一件困難的事情。

3.評估偏倚方向和大小

偏倚具有方向性，即低估或高估干預(yù)措施的效應(yīng)值，偏倚亦有程度大小之分，相對較小的偏倚可能不會影響研究結(jié)論。在完成研究后，建議總結(jié)研究過程中仍然存在的偏倚，并評估對證據(jù)強度的影響。雖然偏倚評估并不是在任何情況下都具有可行性，仍然有一些方法可以幫助評估某些特定情形下的偏倚，例如對比失訪研究人群特征與未失訪研究人群特征，可能有助于評估失訪導(dǎo)致的選擇偏倚，比較不同臨床機構(gòu)對同一種評價方法的測量一致性可能有助于發(fā)現(xiàn)和評估測量偏倚。

（十四）倫理審查和知情同意

真實世界研究倫理審查和知情同意需符合研究當?shù)胤煞ㄒ?guī)要求，國內(nèi)研究需符合《世界醫(yī)學(xué)大會赫爾辛基宣言》和《涉及人的生命科學(xué)和醫(yī)學(xué)研究倫理審查辦法》等相關(guān)法規(guī)和指南的規(guī)定。

四、真實世界研究統(tǒng)計分析

（一）統(tǒng)計分析計劃

真實世界研究需要包括詳細具體的統(tǒng)計分析計劃，明確具體采用的統(tǒng)計方法和參數(shù)設(shè)定，以及統(tǒng)計方法和參數(shù)設(shè)定的理由和依據(jù)。真實世界研究更常涉及分層分析、回歸分析、基于傾向性評分的調(diào)整性統(tǒng)計分析方法，相同的數(shù)據(jù)使用不同的分析方法，結(jié)果數(shù)值通常是不同的，若統(tǒng)計分析結(jié)果與設(shè)定的研究成功閾值/接受標準相近，可能存在采用不同統(tǒng)計方法研究結(jié)論不同的情形。即使使用相同的統(tǒng)計方法，參數(shù)選擇等差異也可能導(dǎo)致結(jié)果不同。因此需盡可能詳細具體提前規(guī)定統(tǒng)計分析計劃，統(tǒng)計分析計劃的詳細程度需能確保按照計劃執(zhí)行分析時，不會存在可由分析人員自由選擇分析方法和參數(shù)的情形。

（二）分析數(shù)據(jù)集

預(yù)先根據(jù)不同的分析目的定義不同的數(shù)據(jù)集，如有效性數(shù)據(jù)集和安全性數(shù)據(jù)集、亞組分析數(shù)據(jù)集等。

（十五）確定需調(diào)整的混雜變量

未采用隨機分組的真實世界研究設(shè)計需預(yù)先確定需調(diào)整的混雜變量，需盡可能識別所有的混雜變量，以便在設(shè)計和統(tǒng)計分析階段對混雜偏倚進行控制。通?？砂凑找韵氯龡l標準判斷為混雜變量：（1）該變量與結(jié)局變量存在因果關(guān)系；（2）該變量與分組變量（暴露變量）存在關(guān)聯(lián)；（3）該變量不是分組變量與結(jié)局變量因果路徑中的中間變量。

建議首先制定合理的變量篩選流程，基于既往積累的專業(yè)知識和臨床經(jīng)驗確定混雜變量，建議通過與臨床專家團隊和統(tǒng)計學(xué)專家團隊進行討論和確認。對于最終仍不能確認是否應(yīng)納入的變量，可對納入和不納入情形開展敏感性分析。列明變量納入或不納入調(diào)整的理由，提供支持性資料。在實際操作過程建議持保守的變量篩選態(tài)度，確定與治療分配和結(jié)局變量均無關(guān)的變量才從模型中剔除，但也需注意避免納入碰撞節(jié)點變量（Collider Variable）、工具變量（Instrumental Variable）、中間變量（Intermediate Variable），納入變量時考慮是否存在多重共線性或交互作用。為清晰地展現(xiàn)各變量之間的因果關(guān)系，可使用有向無環(huán)圖呈現(xiàn)（Directed acyclic graphs, DAG）。

（三）混雜調(diào)整統(tǒng)計分析

1.分層分析

分層分析是一種常用的控制混雜因素的方法，需在方案中預(yù)先規(guī)定層數(shù)的具體劃分原則，明確具體使用的統(tǒng)計方法，如Mantel-Haenszel法，若使用其他加權(quán)統(tǒng)計方法，明確方法出處。

2.多變量回歸分析

多變量線性回歸分析需預(yù)先規(guī)定納入的自變量，確定的混雜變量均需納入到模型中去，當無法在設(shè)計階段確定具體的自變量時，需在方案中明確具體的規(guī)則，以使納入模型中的變量不可隨意挑選。多變量回歸分析中納入的研究對象（及病例）的數(shù)量需滿足模型中需要估計的參數(shù)所需的例數(shù)，存在一些經(jīng)驗幫助估計例數(shù)，例如EPV（events per variable）法。除此之外，需檢驗所使用模型的基本假設(shè)是否成立，如殘差獨立、殘差期望為零、方差齊、分布假設(shè)、線性假設(shè)、Cox回歸等比例風(fēng)險假設(shè)等；恰當?shù)靥幚矶嘀毓簿€性、交互作用；線性回歸模型需具有可接受的擬合優(yōu)度，需預(yù)先明確評估模型擬合優(yōu)度的指標（多重決定系數(shù)、殘差均方、馬洛斯Cp統(tǒng)計量、赤池信息準則和貝葉斯信息準則等）、可接受閾值及其確定依據(jù)。

需預(yù)先明確多重共線性檢驗參數(shù)，如相關(guān)系數(shù)、方差膨脹因子、基于特征值的條件數(shù)等，預(yù)先明確判定是否存在多重共線性的閾值，以及閾值設(shè)定的依據(jù)，對于多重共線性的后續(xù)處理原則需有合理充分的論述。由于不能很好地探測比兩兩回歸變量更復(fù)雜的多重共線性關(guān)系，不建議僅使用相關(guān)系數(shù)檢驗多重共線性。

是否納入交互作用項需考慮專業(yè)知識經(jīng)驗和統(tǒng)計分析兩方面。在專業(yè)知識和經(jīng)驗方面，如果已經(jīng)存在先驗信息顯示回歸變量間存在交互作用，或者專業(yè)知識可判斷某變量與另一變量存在交互作用，需將該交互項納入模型。若交互項存在統(tǒng)計學(xué)意義，但從專業(yè)無法判斷交互作用是否真實存在，建議納入和不納入均開展統(tǒng)計分析，作為敏感性分析。

多變量回歸模型中，優(yōu)勢比（odds ratio）和風(fēng)險比（hazard ratio）等相對性統(tǒng)計指標不如率差和均值差等絕對性統(tǒng)計指標的臨床意義直觀，需注意對這些指標大小的臨床意義解釋。需預(yù)先在方案中明確判定研究假設(shè)成立的閾值。

3.基于傾向性評分的調(diào)整方法

基于傾向性評分的研究建議設(shè)計為兩個獨立的階段，第一階段主要內(nèi)容包括識別混雜變量、估計樣本量、構(gòu)建結(jié)局數(shù)據(jù)防火墻、確定獨立的統(tǒng)計人員、建立傾向性評分估計模型，過程中存在迭代，直至達到令人滿意的協(xié)變量均衡為止，整個過程對結(jié)局數(shù)據(jù)保持盲態(tài)。第一階段主要目的是實現(xiàn)器械暴露組和對照組組間均衡。第二階段則是應(yīng)用傾向性評分估計干預(yù)措施效應(yīng)值。

在傾向性評分第一階段（即尋找傾向性得分在組間均衡的階段），部分特征人群由于未能在組間分布均衡而被剔除，此時需注意剔除部分人群后研究結(jié)論的外推性，需對過程有明確的記錄，并對研究結(jié)論外推性有充分的論述。建議將研究器械組中的所有患者都包括在分析人群中，在傾向性評分未得到均衡的情況下，可增加對照組數(shù)據(jù)源。

估計效應(yīng)值的方法包括分層、匹配、逆概率加權(quán)和回歸等，需預(yù)先明確效應(yīng)值估計采用的方法及相關(guān)參數(shù)。對于分層法，需預(yù)先明確分層具體劃分，以及判定協(xié)變量組間均衡的閾值及其依據(jù)，層權(quán)重系數(shù)計算方式等；對于匹配法，需預(yù)先明確器械暴露組和對照組匹配比例（如1:1或1:n）、采用的匹配法（如精確匹配法、最近鄰匹配法、卡尺匹配法等）、匹配成功判定閾值及其依據(jù)，通常單個患者數(shù)據(jù)僅用于1次匹配。

使用逆概率加權(quán)和回歸法需注意解決以下問題。逆概率加權(quán)基于傾向性評分決定個體的權(quán)重系數(shù)，實現(xiàn)對效應(yīng)值的加權(quán)，其在傾向性評分接近0或1的情形下權(quán)重會過大或過小，且逆概率加權(quán)對于傾向性得分模型準確性要求很高?；貧w法將傾向性評分直接納入到模型中，假設(shè)結(jié)局變量與組別、傾向性評分的回歸模型是正確的，這通常難以被證實。與逆概率加權(quán)相同，回歸法對傾向性得分模型準確性較敏感，同時其在分析過程中由于涉及到模型優(yōu)化而難以對結(jié)局數(shù)據(jù)保持盲態(tài)。

4.其他調(diào)整方法

用于控制混雜的調(diào)整方法還包括邊際結(jié)構(gòu)模型、工具變量和結(jié)構(gòu)方程模型等較復(fù)雜的統(tǒng)計方法，目前在醫(yī)療器械臨床評價中的實際應(yīng)用較少。

（四）處理數(shù)據(jù)缺失

多種原因可導(dǎo)致數(shù)據(jù)缺失，如依從性差、缺乏改善、副作用、治療體驗差以及與研究無關(guān)的外部因素等，合理處理數(shù)據(jù)缺失十分重要。由于缺失機制無法通過已有數(shù)據(jù)進行判斷，并且不同的處理方法可能會產(chǎn)生截然不同的結(jié)果，建議事先在方案或統(tǒng)計分析計劃中明確處理方法，遵循保守原則對缺失數(shù)據(jù)處理方法進行規(guī)定。

應(yīng)對缺失數(shù)據(jù)的最佳策略是通過合理的研究設(shè)計和高質(zhì)量實施預(yù)防數(shù)據(jù)缺失。對于前瞻性真實世界研究，可通過篩選具有經(jīng)驗和負責(zé)的研究者、設(shè)置多種不同隨訪方式、采用陽性對照、采用易測量的結(jié)局指標、合理的數(shù)據(jù)收集表和快捷的數(shù)據(jù)錄入方式、縮短研究時間、開展培訓(xùn)等方法減少數(shù)據(jù)缺失；對于回顧性真實世界研究，需評估數(shù)據(jù)庫中數(shù)據(jù)缺失的程度，應(yīng)報告每次測量的缺失和非缺失記錄的數(shù)量。推薦使用敏感性分析（例如比較含缺失數(shù)據(jù)與不含缺失數(shù)據(jù)的患者的結(jié)果）來確定缺失的影響，若數(shù)據(jù)缺失較多，不建議使用該數(shù)據(jù)源開展真實世界研究。

目前常用的缺失數(shù)據(jù)填補法可分為單一填補和多重填補法兩大類，需預(yù)先規(guī)定缺失數(shù)據(jù)具體的處理方法。單一填補法推薦使用保守的結(jié)轉(zhuǎn)法，例如將器械暴露組缺失值均填補為無效，對照組缺失值均填補為有效；需注意單一填補法將減小方差，參數(shù)估計精度將被高估，體現(xiàn)為置信區(qū)間縮窄。對于多重填補，需預(yù)先規(guī)定填補模型、分析模型、插補次數(shù)、合并規(guī)則及相應(yīng)確定依據(jù)。采用缺失信息比例、相對增加的方差、相對效率和參數(shù)穩(wěn)定性等診斷指標對評估數(shù)據(jù)填補質(zhì)量。在實際應(yīng)用中，選擇正確的填補模型非常關(guān)鍵，通常需要對數(shù)據(jù)有深入的理解以及對可能的缺失機制有合理的假設(shè)。

（五）亞組分析

若納入研究的人群存在異質(zhì)性，并且異質(zhì)性可能導(dǎo)致不同效應(yīng)值，需開展亞組分析。若不同亞組中效應(yīng)值不一致，需注意此時研究結(jié)論對預(yù)期人群的外推性，避免產(chǎn)品在部分人群中具有顯著的療效，而在另外部分人群中無效。納入\排除標準越寬，更容易出現(xiàn)異質(zhì)性，可基于既往研究經(jīng)驗和知識預(yù)先在方案中確定亞組分析，未預(yù)先規(guī)定會降低亞組分析結(jié)果的可信度。

（六）敏感性分析

敏感性分析用于評估研究結(jié)果穩(wěn)健性，在多種不同情形下均可能需開展敏感性分析，尤其對于觀察性真實世界研究。真實世界研究中敏感性分析常見的應(yīng)用情形包括違背模型假設(shè)、統(tǒng)計方法（如是否納入交互項、共線性變量處理等）、變量選擇、評估未被測量混雜的影響、評估干預(yù)偏離的影響、數(shù)據(jù)缺失填補、矛盾數(shù)據(jù)處理、離群值、變量定義不一致、不同人群亞組、基線不均衡等。需報告全部的敏感性分析結(jié)果，不能選擇性報告。若敏感性分析的結(jié)果與主要分析的結(jié)果不一致，提示研究結(jié)論穩(wěn)健性不夠，可能需開展額外的研究進一步驗證。

五、研究報告

研究報告需遵循完整、準確、規(guī)范的總體原則。不同類型真實世界研究報告內(nèi)容存在差異，pRCT研究報告內(nèi)容可參考實效性試驗CONSORT指南，隊列設(shè)計、病例對照設(shè)計等觀察性研究可參考STROBE指南，也可以參考其他適用的文件，如STaRT-RWE清單，以幫助提高臨床報告要素的完整性。在以上的考慮基礎(chǔ)上，需特別注意以下內(nèi)容：

（一）研究設(shè)計：闡述選擇該研究設(shè)計的原因，結(jié)合已有證據(jù)，闡明該研究擬回答的安全有效性問題。

（二）篩選流程圖：提供研究對象的篩選流程圖。對于回顧性真實世界研究，說明研究過程中如何從原始數(shù)據(jù)庫中逐步篩選出合格的分析對象，給出原始數(shù)據(jù)庫的樣本量、每一個步驟排除的研究對象數(shù)目、相應(yīng)的排除原因以及最后納入分析的研究對象樣本量。

（三）數(shù)據(jù)源基本特征描述：包括人群代表性、數(shù)據(jù)質(zhì)量等；該數(shù)據(jù)源自身質(zhì)控措施，基于該數(shù)據(jù)源發(fā)表的高水平文獻等信息。

（四）人群基本特征描述：詳細描述研究對象的基線特征，各組病例入選時的基線特征，基線數(shù)據(jù)是否平衡。

（五）數(shù)據(jù)準確性描述：對于回顧性真實世界研究，提供對使用到的各變量數(shù)據(jù)的準確性驗證和/或評估結(jié)果，若采取自動方法從觀察性數(shù)據(jù)庫中提取變量數(shù)據(jù)，列明各變量具體的提取算法，提供相應(yīng)算法的準確性驗證數(shù)據(jù)。

（六）合并用藥、合并治療統(tǒng)計：記錄和統(tǒng)計影響臨床結(jié)局的其他干預(yù)措施（藥物治療及其他診療方法）實施情況。

（七）按照方案開展統(tǒng)計分析，呈現(xiàn)所有統(tǒng)計分析結(jié)果，包括：主分析結(jié)果、次要分析結(jié)果、安全性分析結(jié)果、亞組分析結(jié)果、期中分析結(jié)果、敏感性分析結(jié)果。

（八）數(shù)據(jù)缺失處理：描述缺失數(shù)據(jù)的數(shù)量及具體情況，列明缺失處理情況，與方案規(guī)定的符合性。若與方案規(guī)定的數(shù)據(jù)缺失處理方法不一致，提供合理的理由。

（九）矛盾數(shù)據(jù)處理：描述不同來源數(shù)據(jù)重要信息的統(tǒng)計量，針對矛盾數(shù)據(jù)的敏感性分析結(jié)果。

（十）偏倚風(fēng)險及控制情況：以表格的形式列出可能存在的各細分偏倚類型，針對各偏倚逐個列出降低/消除偏倚的措施，并對應(yīng)列出采取措施后殘留的偏倚風(fēng)險大小評估結(jié)果。

（十一）討論和結(jié)論：討論研究局限性，討論潛在偏倚的方向和大小，分析剩余偏倚對臨床證據(jù)強度的影響；討論研究結(jié)果的外推性，例如考慮匹配人群和預(yù)期適用人群之間的差異，分析結(jié)果的外推性；結(jié)合研究目標、局限性、多種分析方法、相似研究的結(jié)果和其他相關(guān)證據(jù)，對結(jié)果進行謹慎、全面的解釋。

六、參考文獻

[1]國家藥品監(jiān)督管理局.真實世界數(shù)據(jù)用于醫(yī)療器械臨床評價技術(shù)指導(dǎo)原則（試行）：國家藥監(jiān)局關(guān)于發(fā)布真實世界數(shù)據(jù)用于醫(yī)療器械臨床評價技術(shù)指導(dǎo)原則（試行）的通告.2020年第77號[Z].

[2]高培, 王楊, 羅劍鋒, 等. 基于真實世界數(shù)據(jù)評價治療結(jié)局研究的統(tǒng)計分析技術(shù)規(guī)范[J]. 中國循證醫(yī)學(xué)雜志. 2019;19（7):787-793.

[3]彭曉霞,舒嘯塵,譚婧,等.基于真實世界數(shù)據(jù)評價治療結(jié)局的觀察性研究設(shè)計技術(shù)規(guī)范[J]. 中國循證醫(yī)學(xué)雜志, 2019, 19 （7), 779–786.

[4]溫澤淮, 李玲, 劉艷梅, 等. 實效性隨機對照試驗的技術(shù)規(guī)范. 中國循證醫(yī)學(xué)雜志[J]. 2019;19（7):794-802.

[5]聶曉路, 彭曉霞. 使用常規(guī)收集衛(wèi)生數(shù)據(jù)開展觀察性研究的報告規(guī)范-RECORD規(guī)范. 中國循證醫(yī)學(xué)雜志. 2017;17（4):475-487.

[6] Yue LQ, Campbell G, Lu N, Xu Y, Zuckerman B. Utilizing national and international registries to enhance pre-market medical device regulatory evaluation. Journal of Biopharmaceutical Statistics[J]. 2016;26（6):1136-1145.

[7] Sterne JA, Hernán MA, Reeves BC, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions[J]. BMJ. 2016;355:i4919.

[8] Wang SV, Pinheiro S, Hua W, et al. STaRT-RWE: structured template for planning and reporting on the implementation of real world evidence studies[J]. BMJ. 2021;372:m4856.

站點聲明

本網(wǎng)站所提供的信息僅供參考之用,并不代表本網(wǎng)贊同其觀點，也不代表本網(wǎng)對其真實性負責(zé)。圖片版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系我們，我們立刻刪除。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與本站聯(lián)系,本網(wǎng)將迅速給您回應(yīng)并做相關(guān)處理。
鄭州思途醫(yī)療科技有限公司專注于醫(yī)療器械產(chǎn)品政策與法規(guī)規(guī)事務(wù)服務(wù)，提供產(chǎn)品注冊備案申報代理、臨床試驗、體系建立輔導(dǎo)、分類界定、申請創(chuàng)新辦理服務(wù)。