본문 바로가기

연구수첩/보건의료근거연구

[Vol.1 창간호] 알기 쉬운 EBM :: 체계적 문헌고찰






   글. 이선희(한국보건의료연구원 의료기술분석실)



의료기술에 대한 안전성 및 유효성을 평가하기 위한 체계적문헌고찰의 첫 번째 단계는 평가계획서(Review Protocol)를 확정짓는 것이다. 평가계획서는 근거를 규명하고 평가하며 비교하기 위해 따라야 하는 과정을 보다 구체적으로 기술한 것으로[1], 실제 평가가 이루어지기 전 구체적 질문이나 문헌선택방법 및 선택 기준 등을 명확히 기술해주고 평가 수행과정을 자세히 제공함으로써 비뚤림이 적은 근거를 얻기 위한 노력이다.

 

평가계획서는 평가 방법에 대한 내용을 구체적으로 반드시 문서화(Written document)하며, 다음과 같은 내용이 기술되어야 한다[2]. 또한, 평가자의 주관성을 배제하기 위해 평가가 수행되기 전 작성되어야 한다.

 

 ■ 평가배경

 ■ 평가문제 (PICO)

 ■ 평가방법: 검색어, 검색 데이터베이스, 출판형태, 연구유형, 언어 등

 ■ 문헌선택 및 배제기준

 ■ 문헌의 질 평가 도구와 방법

 ■ 자료추출 전략

 ■ 예정 평가기간




| 평가문제(PICO)


구체적 질문을 만드는 궁극적인 목적은 현존하는 근거에 의해 우리가 결정해야 할 평가 주제에 대한 최선의 답변을 찾기 위함이며, 최선의 답변은 어떤 전문가의 의견이 아니라 현존하는 모든 사항을 객관적으로 과학적으로 고려한 결과이다. PICO의 초안을 만들며 다음의 특성을 포함하여야한다.

 

  • P (Patient. Population. Problem) : 환자. 대상. 문제

  • I (Intervention or Index Test) : 중재시술 또는 중재검사

  • C (Comparators. Comparison. Control) : 비교자. 둘 이상의 기존 의료기술과의 비교

  • O (Outcomes) :

    안전성 : 사망률, 합병증

    유효성 : 생존률(Survival rate). 만성질환으로의 이환률(morbidity)

    치료 후 합병증(complications of disease or of medical care)

    신체기능 상태(physical functional status), 심리사회적 기능(psychosocial functioning)

    삶의 질(quality of life), 치료비용(costs of care)

    특정 의료서비스의 사용(use of specified services)

    치료에 대한 만족도(satisfaction with care or experiences with care)

 


PICO 초안은 전문가 논의를 거쳐 확정한다. 전문가를 활용하는 이유는 물론 500여개의 문헌을 통해 실제 연구에 활용된 개념들을 색인하긴 하였으나 실제 임상현장의 상황을 충분히 반영하기 위함이다. PICO를 확정할 때 주의할 사항은 대상환자는 초록에서 연구대상으로 하고 있는 환자군을 정리한 수 어떤 환자군까지 대상으로 할 것인지를 결정해야 한다.

 

대상환자의 범위는 이절적인 연구를 통합하는 결과를 초래하지 않도록 주의해야한다. 비교자는 해당 기술이 사용되는 질병에 활용되는 모든 치료(또는 진단)법을 포함하는 것이 아니라 해당 기술의 특성과 현실을 고려하여 유사한 수준으로 선택해야 한다. 비교자를 선택할때는 건강보험요양급여비용 목록에 등재된 동일대상 동일목적의 기술의 확인도 필요하다. 의료결과중 안전성에 대한 지표를 정할 때 주 합병증과 부합병증의 논의가 필요하다.

 


| 평가방법 확정


문헌검색 데이터베이스

평가를 위한 구체적 질문이 결정되면 해답을 찾기 위해 문헌검색범위와 어떤 문헌검색 데이터베이스를 활용할 것인지를 결정해야 한다. 문헌검색범위는 어떠한 정보원을 포함해야 이상적인지를 고려하는 것으로 COSI 모형을 활용하도록 한다[4].

문헌검색에서 우선적으로 활용되는 것이 전자 데이터베이스(이하 '전자DB'라 한다)이다. 전자 DB는 대부분 자세한 문헌목록(bibliography)과 초록(abstracts)뿐 아니라 정보색인(thesaurus)이 포함되어 있다[1]. DB는 가용할 수 있는 환경 내에서 사용할 데이터베이스를 사전 결정하여야 한다. 영국 SIGN(Scottish Intercollgeate Guideline Network)의 기준에 의하면, 체계적 문헌고찰에 있어 검색의 비뚤림을 최소화하는 충족조건으로 MEDLINE, EMBASE 및 코크란 도서관의 데이터베이스를 검색할 것을 요구하고 있다[5]. DB 선택에 있어 각 전자 DB의 특성과 정보를 잘 알면 효율적으로 사용할 수 있다. 예를 들어, 대체의학 기술의 경우는 AMED를 활용하고, 종양치료에 관한 기술이면 CancerLit, 한의학은 국내 DB를 주로 검색하고, OASIS 한국전통지식포탈을 활용할 수 있다.

 

검색어

문헌검색 데이터베이스를 이용, 성공적인 검색을 위해서는 찾고자 하는 정보에 따라 전략을 수립하여 적절한 검색어를 이용하는 것이 중요하다. 문헌을 찾기 위한 검색어는 PICO형식을 이용한다. 검색어 선정 시 특정 의료결과로만 분석할 경우를 제외하고는 의료결과는 검색식에 산정하지 않는 것이 바람직하다. 따라서 환자, 해당 의료기술과 비교자를 이용해서 검색어를 통합한다. 또한, 검색어를 확장하기 위해서는 MeSH, 통제어, 유사어, 불리언연산자(AND, OR, NOT), 절단검색(truncation, '*', '$', '?')이나 만능문자(wild cards, '?', '$')를 이용한다. 이 외에도 검색어 사용을 위해 각 데이터베이스에서 지원하는 필드(fields)나 검색의 범위(예: 확장검색, 초점검색 등)가 각 DB별로 지원여부가 다르므로 검색어를 선정할 때 각 데이터베이스의 시소러스 정보를 파악하여야 한다[6].

 

수기검색(Hand serarching) 및 회색문헌(gray Literature)

전자 DB에 적절히 색인되어 있지 않은 관련 연구들을 찾기 위해 관련 논문을 전자 데이터베이스 외 관련된 연구들을 수작업으로 검색하는 수기 검색이 필요하기도 하다. 이 경우 수기검색은 전자 데이터베이스를 통해 구독한 국내외 문헌에서 인용한 참고문헌을 검토하는 눈덩이 효과(snowballing)를 이용하고, 과학문헌 인용색인(Science Citation Index, http://www.lsinet.com) 을 이용하여 관련 문헌을 검색할 수 있다. 또한, 특정 전문학술지 및 국내 관련 전문회사 및 연구소 등의 보고서 등의 여부도 파악해야 한다. 전문가 자문을 통해 해당 주제에 대한 근거 정보를 확인할 수 있으며 현재 진행되고 있는 연구에 대해 확인하고, 각종 학술대회 초록집이나 발표집, 해당 전문가 개인이나 집단에게 편지를 쓰는 것도 유용하다. 회색문헌은 동료심사되지 않은 연구 또는 정부, 학계, 기업 등의 출판물이나 전자문헌 형식의 출판되지 않은 문헌을 일컫는 것으로 출판 비뚤림을 최소화하는데 필요하다.

 

연구유형 선택

평가를 위한 구체적 질문을 적절히 반영하려면 어떤 연구유형을 선택할 것인지를 고려해야 한다. 의료기술평가 신청자들은 신청 기술에 대한 연구문헌의 유형 중 종설 등을 포함하여 유효성의 근거로 제시한다.


그러나 중재시술에 대한 구체적 질문에 대한 해답을 찾기 위해서는 체계적 문헌고찰, 무작위 대조군 임상시험, 코호트 연구를 선택하며 진단검사의 경우는 검사의 목적이 진단일 경우 체계적 문헌고찰, 단면조사연구를, 예후예측인 경우 체계적 문헌고찰, 코호트/생존연구를 주로 선택한다. 그러나 의료기술 특성상 비교연구가 어려운 경우, 희귀질환인 경우에는 사례연구, 사례보고 등을 포함하기도 한다.

 



| 적절한 문헌 선택(Selection of studies)


문헌선택은 다단계 과정이다. 우선 각 데이터베이스에서 검색된 문헌들의 중복여부를 파악해야 한다. 이 때 수기로는 중복검색이 불가능하므로 국외 문헌은 레퍼런스 메니저 프로그램을 이용하여 중복여부를 확인한다.


국내문헌은 전자 DB에서 레퍼런스 메니저 프로그램으로의 변환이 불가능하므로 엑셀 등의 다른 프로그램을 활용하여 저자, 연구제목, 잡지명, 출판년도, 권(호), 페이지 등을 일일이 입력해야 한다. 문헌선택 과정은 수 차례 반복된다. 이 과정에는 적어도 두 명 이상의 평가자가 각 과정에 독립적으로 참여한다. 초록으로만 문헌선택이 어려운 경우는 해당 문헌의 전문(full text)를 찾아야 한다.

 



| 문헌의 질평가(Study quality assessment)


논문을 검색하고 1차적으로 대상문헌이 선정된 다음 시행해야 할 중요한 과정은 각각의 논문이 주는 정보의 옥석을 가리는 일이다. 모든 연구는 객관적인 결과에 영향을 주는 비뚤림이 개입될 가능성이 있다. 이는 결과의 신뢰도에 영향을 줄 수 있으므로 문헌의 질을 평가하는 것은 중요하다. 1950년대 사회과학자 Campbell은 임상 연구에서 내적 타당성과 외적 타당성의 차이를 구분하여 설명했다.

 

내적 타당성

내적 타당성이란 임상 연구에서 계통적 오류(systematic error)를 최소화한 정도를 말한다.

내적 타당성을 위협하는 비뚤림은 선택 비뚤림, 실행 비뚤림, 탈락 비뚤림, 결과 확인 비뚤림 등이 있다.

 

  • 선택 비뚤림(selection bias)은 비교하고자 하는 그룹을 배정하는 데서 발생할 수 있는 비뚤림이다. 선택 비뚤림은 무작위 배정순서 생성 및 배정순서 은폐와 관련된다. 무작위화의 목적은 잠재적 혼란 변수에 대하여 비교 가능한 그룹을 만들기 위한 것으로 선택 비뚤림을 예방하기 위해서는 적절한 배정순서 생성 방법이 적용되어야 한다. 적절한 배정순서 생성 방법으로는 컴퓨터 알고리즘을 이용하는 방법, 동전 던지기, 주사위 던지기 등이 있다. 둘째, 대상자 배정순서는 연구자에게 은폐되어져야 한다. 배정은폐 방법이 적절히 이루어졌다고 판단할 수 있는 기술로는 중앙에서 시행한 무작위 할당, 참석자들에게 연속적으로 배정되는 미리 숫자가 쓰여 있는 혹은 코드가 적혀 있는 용기, 연속적인 번호가 부여되고 불투명한 용기를 사용한 경우이다.

 

  • 실행 비뚤림(Performance bias)이란 중재 이외에 추가적인 치료가 한 그룹에만 제공되는 경우 발생하게 된다. 연구 대상자 또는 중재를 시행하는 사람이 배정 상태를 모르게 함으로써 실행 비뚤림을 예방할 수 있다. 대조군에 중재가 이루어지거나 실험군 또는 대조군에 의도하지 않은 추가적인 중재가 이루어지는 것은 연구결과에 영향을 미칠 수 있으며, 연구 대상자는 자신의 배정상태를 알게 됨으로 좀 더 증상을 많이 호소하고 비뚤린 결과를 초래할 수 있다.

 

  • 탈락 비뚤림(attrition bias)은 연구 대상자 배정 후 연구 프로토콜 위반 및 추적관찰 중단으로 인해 배정된 그룹에서 환자를 배제시키는 것으로 초래될 수 있다. 프로토콜 위반이란 선택기준의 위반과 배정된 치료를 받지 못한 경우를 포함한다. 추적관찰 중단은 연구 대상자가 더 이상 연구에 참여하기를 거부하거나 연락이 두절되거나, 연구자가 할당된 중재를 중단해야 한다고 결정함으로 인해 연구기간 중 어느 단계에서 조사 및 관찰이 불가능한 경우를 말한다. 배정 후 탈락한 환자들은 연구에 남아있는 환자들과 다를 수 있다. 예를 들어 질병의 악화나, 심각한 부작용 때문에 추적관찰이 불가능할 수 있다. 배정대로 치료받지 못한 환자들은 예후 측면에서 다르다. 그러므로 무작위 배정된 대상자는 처음 배정된 그룹 그대로 모두 분석에 포함되어야 한다.

 

  • 결과 확인 비뚤림(detection bias)은 환자 배정에 대한 지식이 결과 확인에 영향을 미칠 때 발생하게 된다. 결과 확인 비뚤림을 피하기 위해 환자, 연구자, 결과 확인자에게 맹검(blinding)이 이뤄져야 한다.

 

외적 타당성

외적 타당성이란 연구 결과의 일반화 가능성을 말하는 것으로써 연구 결과를 어떤 인구, 장소, 치료 변수, 측정 변수에 적용할 수 있는지 적용 가능성을 의미한다. 외적 타당성은 연구에 포함되는 환자의 특성, 연구 장소, 치료법, 결과 측정과 관련된 판단의 문제이다.

 


질 평가 도구

문헌의 질을 평가하는 도구는 연구 유형에 따라 다양하다. 질 평가 도구는 크게 척도 방식(Scoring system)과 점검목록(checklist) 방식으로 구분된다. 국내에서 의료기술평가에 주로 사용하는 질평가 도구로는 코크란의 비뚤림 위험 평가 도구와 영국 SIGN의 질 평가 도구이다[11]. SIGN의 질 평가 도구는 체계적 문헌고찰, 무작위 임상시험, 코호트 연구, 환자-대조군 연구, 진단법 평가 및 경제성 평가연구로 구분되어 있다. 질 평가결과는 평가자의 주관적인 과정일 수 있어 2명 이상의 평가자가 독립적으로 수행한 후 합의하는 과정을 거쳐야 한다.

 



| 자료추출서식 확정


평가자는 각 문헌에서 자료를 추출하여 종이 또는 전자코딩서식에 옮기는 작업을 해야 한다.


자료추출서식은 연구자의 결정과정을 보여주는 기록으로 일반적인 형식으로 기초로 해당 의료기술의 평가목적와 평가의 틀에 맞는 자료추출 형식을 개발하여야 한다. 그러나 자료추출 형식의 설계는 주의를 요하는 과정이다. 추출하는 정보는 평가 문제와 직접 관련되어져야 하며, 정보의 양이 너무 자세할 경우 평가자의 시간만 낭비되고, 너무 간결할 경우 중요한 자료가 빠질 우려가 있다. 자료추출 형식은 동일한 표본으로 여러 평가자에 의해 시범적 검토를 거쳐 개발되어야 한다. 자료추출방법은 일관성을 맞추어야 하며, 시범 검증을 통해 필요한 자료가 무엇인지 등에 대해 사전에 충분히 검토되어야 한다.

 

자료추출 형식은 참고문헌을 기재하기 위해 필요한 일반적인 정보와 분석에 요구되는 구체적 정보 및 자료추출에 사용된 코드 내역 등이 모두 포함되어야 한다. CRD에서 제공하는 예시를 기술하면 다음과 같다[7].


<Table 3> The contents of data extaction


General Information

▪ Date of data extraction

▪ Title, authors, journal, publication details, or any other idenfying features of the study

▪ Identification of the reviewer


Specific Information

Study characteristics 

▪ Reverification of study eligibility

▪ Population characteristics and care setting

▪ Methodological quality of the study

▪ Interventions

▪ Outcomes


Outcome measures and results

▪ Length of follow-up

▪ Drop-outs

▪ Missing data

▪ Discrete data(events, total numbers, p-value)

▪ Continuous data(mean, SE, SD, numbers, p-value)

▪ Suvival data(observed and expected number of events, survival plots, p-value)

▪ Effect measures 

Coding format and instruction for coders




| 자료추출(Data Extraction)


연구문헌의 출판년도 저자등의 일반적 정보뿐 아니라 해당 의료기술에 대한 안전성, 유효성 정보를 논문으로부터 추출하는 단계이다. 자료추출은 주관적인 판단으로 인해 과오를 저지르기 쉬운 과정이므로 자료추출의 정확성과 일관성 유지는 아무리 강조해도 지나치지 않다. 따라서 이 과정의 모든 단계에서 비뚤림을 최소화하기 위해서는 자료추출을 위한 계획서를 만들어야 하며, 계획서는 우선 표본을 선정하여 일차문헌에서 추출할 모든 항목을 목록화하는 방법으로 이루어진다.

 

의료기술별로 조금씩은 다르지만 논문마다 의료결과를 보는 관점과 단위사용이 다를 수 있다. 평가자들은 이 과정에 참여할 때 사전 교육을 받아야 하며, 코딩에 대한 충분한 이해가 선행되어야 한다. 최소한 두 명의 평가자에 의해 자료추출이 독립적으로 수행되어야 하며, 향후 비교되어야 한다. 자료추출의 경과가 불일치 할 경우 토론 등을 통해 상호 합의해야 하며, 평가자간 상호 합의되지 않을 때 제3자의 개입이나 전문소위원회의 자문이 요구된다.


자료추출 단계에서 평가자는 해당 의료기술의 평가목적을 명확히 알고 질 평가 등을 통해 해당 문헌에 대해 전반적 파악이 완료된 상태이어야 하므로 자료추출시점에서 적어도 7회 이상의 논문 숙독이 이루어져야 한다.




| 결과합성(Synthesizing the studies)


결과를 합성하는 것은 개별적인 문헌들의 근거표(evidence table)를 작성함으로 시작된다.

근거표에는 연구유형, 연구의 질 평가결과, 연구대상의 성격(대상자 수 등), 비교자, 결과 측정지표, 연구의 규모 등 연구에서 제시된 사항들을 기술할 수 있으나 요약해서 언급해야 하므로 평가목적에 따라 중요한 사항들을 제시한다. 문헌들을 통합시 주료 사용되는 방법은 질적 체계적 문헌고찰과 계량적 체계적 문헌고찰에 속하는 메타분석과 결정분석(decision analysis) 등이 있다.

 

기술적 결과 합성은 비계량적으로 근거를 종합하는 방법이다. 체계적 문헌고찰은 원칙적으로 기술적인 분석[8] 후 메타분석과 같은 양적인 합성방법을 부가적으로 이용한다. 메타분석은 여러 일차연구들의 결과를 통계학적 방법을 이용하여 정량적으로 결합하는 기법이다. 적은 단위의 일차연구들을 통합적으로 처리하여 정보를 합성하므로 더 강도높은 근거를 산출할 수 있고 신뢰도를 증가시키며 불일치되는 점들로 인한 불확실성을 줄여줄 수 있다. 메타분석을 실시할 때 무조건 결과를 통합할 것이 아니라

임상적 통계적 이질성(heterogeneity)을 고려하여 양적 결합이 바람직한지 고려해야 한다. 이질성 검증방법은 X²-test(검정 통계량 Q)나 Forest plot을 이용하며, 확률효과 모형(random effect model)을 사용할 수 있다. 그러나 이질성의 문제가 해결되는 것은 아니므로 이질성의 발생 원인을 찾기 위한 소그룹 분석(subgroup Analysis)이나 메타 회귀분석(meta regression) 등의 다각도의 노력이 요구된다. 메타분석(figure 4)을 이용한 예를 제시하면 다음과 같다[9].

 

<Figure 4> The example of Meta analysis(forest plot)





 

이 글은 체계적문헌고찰 수행과정의 공유를 통해 정확하고 용이하게 체계적 문헌고찰을 수행하도록 돕고자 정리했다.


체계적인 문헌고찰은 명백하고 재현성 있는 방법론에 따라 확고한 연구목적과 방법으로 이루어진 일차 문헌들의 개괄이다[11]. 계량적 체계적 문헌고찰과 메타분석은 전반적인 결과의 정확성을 증가시킬 수 있다[12, 13]. 반면에 충분한 고려없이 수행될 경우 결과의 강도만 증가시키는 것이 우려되고 작은 비뚤림 뿐 아니라 작은 효과까지 허용하게 되는 오류를 범할 수 있다[14]. 


체계적문헌고찰은 객관적인 평가를 통하여 근거있는 의료기술은 신속히 진료현장에서 사용할 수 있게 지원하고, 근거가 미약한 의료기술로 인한 국민들의 혼란이나 의료비낭비를 최소화하도록 정책결정자들이 판단할 수 있도록 근거를 정리하는데 유용한 방법론이다.





[참고문헌]

1. CRD Report Number4. Undertaking Systematic Reviews of Research on   Effectiveness: CRD’s Guidance for those Carrying Out or Commissioning Reviews. 2001.

2. Ministry of health & welfare. Report of Heath technology assessment demonstration agency operating. 2005.

3. Health insurance review & assessment service. Radiofrequency ablation of lever tumors. 2004.

4. Bidwell S, Jensen MF. Chapter 3: Using a Search Protocol to Identify Sources of Information: the COSI Model in Topfer L-A, Auston I (Eds). Etext on Health Technology Assessment (HTA) Information Resources. Bethesda, MD: National Information Center on Health Services Research and Health Care Technology (NICHSR), US National Library of Medicine. 2004.

5. http://www.sign.ac.uk/guidelines/fulltext/50/notes1.html

6. Dawes M, Davies P, Gray A, Mant J, Seers K, Snowball R. Evidence-based practice.Elsevier. 2006.

7. SH, Lee, WJ, Choi, M, Lee., AR, Sul, YJ, Jung. Systematic review's Guideline for new health technology assessment. 2011

8. Guyatt G, Rennie D. User's Guides to the Medical Literature. JAMA & Archives Journals & American Medical Association. 2005.

9. SH Lee, SY Jang, JH Jung. HER-2 Gene Silver In Situ hybridization in gastric adenocarinoma. 2011.

10.  Deek JJ. Systematic reviews in health care: Systematic reviews of evaluations of diagnostic and screening tests. BMJ. 2001; 323:157-162. 

11. Greenhalgh T. How to read a paper. Papers that summarise other papers. MBJ 1997; 315: 672-675.

12. Chalmer I, Atman DG. Systematic reviews. BMJ publishing group. 1995. 

13. Higgins JPT, Green S. Cochrane handbook for systematice reviews of interventions. The Cochrane Collaboration, 2008.

14. National health and medical research council. How to review the evidence : systematic identification and review of the scientification literature. Commonwelth of Australia. 2000.