2013년 12월 4일 수요일

"위기의 의사, 전문직업성 확보를 위한 제언 - 의협창립 105주년 특집 좌담회" 기사를 읽고: 정신건강의학과 전문의의 시각에서

이 글은 http://www.doctorsnews.co.kr/news/articleView.html?idxno=92083 에 나온 좌담회 관련 기사를 읽고 그에 대한 저의 개인적인 생각을 쓴 것입니다.

제가 어떻게 이 글을 읽게 되었는지는 생각이 잘 안납니다. 하지만, 읽고 나서는 참 감탄을 했습니다. 몇번이고 읽고 또 읽었었고, 원래 이 글을 읽고는 어디다가 잘 저장해 둔 것 같은데, 막상 찾지를 못하다가 오늘 페이스북에 마침 저수가와 관련하여서 글이 올라온 것이 있어서 나름대로 저의 생각을 정리해서 올리는 것이 좋겠다고 생각해서 한참을 글을 검색해서 찾고는 찾은 김에 저의 의견에 대해서도 이렇게 글을 쓰게 되었습니다.

원래 이 블로그에는 다양한 글들을 올리려고 하였었는데 마침 지금 미국에서 뇌신경영상 분석 공부를 하다보니, 이 쪽과 관련된 글만 주로 올리고 또 제가 공부한 것을 정리하여 올리는 블로그가 되어 버렸습니다.

하지만 시카고에 와서 진료가 남의 나라에서 어떻게 이루어지는 지를 보고나서는 나름대로의 생각을 정리하여 두는 것이 필요하겠다라고 생각을 하였다가 이번에 글을 올립니다.

(개인적으로 같은 고대에 있지만 안덕선 교수님은 제가 존경하는 은사님이시고, 또 작년에 의료인의 전문직업성과 관련된 연구과제에 지원을 한 적이 있어서 - 떨어졌지만 - 이 번의 기사는 특히 각별하게 관심을 기울여서 잘 읽었습니다.)

항상 한국의 의료현실과 관련된 기사가 나오면 의료인과 비의료인인 의료 이용자들의 시각이 첨예하게 갈리면서 싸움이 나곤 합니다.

의사들은 한국에서 의사를 하는 것이 더 어려워지고 있고 내 아이는 의대를 안 보내겠다라는 말을 입에 달고 살곤 합니다만, 한국에서 의대 들어가는 것은 정말 수재 중의 수재가 아니면 어려운 일입니다. 왜 그런가, 의사가 갖는 직업 안정성이 오늘 날의 한국사회에서는 가장 큰 이유가 아닐까 합니다. 오늘날의 한국 의사들이 과거의 한국에서의 의사들이 가졌던 위상을 더이상 누리지 못하는 것은 사실인 것 같습니다만, 동시에 한국 사회가 역동적으로 변하면서 안정성을 가질 수 있는 전문적인 직업군이 선망의 대상이 되었기에 여전히 의사가 되는 것을 많은 청소년들이 원하고 의사는 선망이 되는 직업군에 들어갑니다. 동시에 의사는 사회적으로도 기득권 쪽에 속하고 있습니다 (아직까지는).

정신과에서 많이 나오는 이야기들 중에서 마음 읽기 이론이라는 것이 있는데, 타인의 입장에서 타인이 생각하는 마음을 얼마나 읽을 수가 있는가에 대한 이야기입니다. 한국의 의사들은 이러한 환자들의 마음 읽기, 의사와 다른 입장에 있는 일반적인 국민들의 마음 읽기가 필요하다고 생각됩니다. 국민들의 마음 속에서 의사는 기득권의 상징으로 확고한 입지를 가지고 있는 데, 이러한 상황에서 의사들이 저수가로 의사들의 처우가 악화된다는 것을 아무리 이야기를 하여도 그러한 이야기는 소귀에 경읽기로 들리지 않을까 우려됩니다.

좌담회를 보면서 기가 막힌 비유라고 생각한 것이 있습니다. (한국의사와 미국의사를 비교하자면 질적인 차이는 별로 없는데 수입의 차이는 물론 많다. 스웨덴과 인도의 버스기사를 비교해 봐도 그렇다. 인도의 버스기사는 운전 실력도 좋고 오래 근무해야 하기 때문에 고단하면서도 임금은 적다. 스웨덴은 근무시간도 짧은데 임금은 많이 받는다. 임금은 사회에 따라 다를 수밖에 없다. 아직도 많은 의사들이 임금과 전문성이 직결된다고 생각하는 듯 하다.)

한국에서 의사가 처우가 악화되고 있다는 것을 강조하는 것은 일반 대중들에게는 와닿지 않는 이야기이고, 특히나 일반 대중들은 미국의 의료가 얼마나 문제인지를 많이 들은 상태이기 때문에 미국과 비교하는 것은 오히려 역효과만 나타나지 도움이 되지 않는다고 생각을 개인적으로 하고 있습니다. 차라리 미국 말고 다른 나라의 의사들과 비교를 했으면 합니다.

그렇다면, 저수가는 단지 기득권인 소수자에 속하는 의사들의 이야기에 불과하니, 무시하고 넘어가도 되는 말인가, 이왕이면 소수자가 좀 손해를 보더라도 그로 인해서 대다수의 국민이 혜택을 볼 수 있는 의료보험제도가 유지되는 것이 낫지않은가(그래도 의사들은 다른 직군들과 비교해서 어느 정도는 먹고 살만하니)에 대해서 생각을 하자면 저는 단연코 아니라고 이야기를 하겠습니다.

미국에 와서 보니 여러모로 한국의 현실과 비교하여서 답답한 부분들이 있습니다. 제가 무조건 미국이 최고라고 생각하는 것은 아니며 한국도 답답한 부분이 있고, 미국도 답답한 부분이 있습니다. (미국에서 의료비 때문에 걱정하는 것을 보면 이 나라도 이해가 안가는 구석이 한두가지가 아니이긴 합니다. 오바마 케어가 왜 그렇게 미국에서는 반대의 대상이 되는지 외부자의 시각으로는 이해가 잘 안가는 미묘한 부분들이 많더군요.)

하지만 한국이 공공의료가 잘 되어 있다고 말하기에는, 너무나 부족한 부분들이 많습니다. 한국의 의료보험은 전국민을 대상으로 한다고 자랑스럽게 말하지만, 현재의 의료현실이 한국의 의료보험이 막상 중병이 가족들 중에서 걸리게 되면, 진정한 의료보험의 역할을 못하고 일종의 의료할인권같은 역할을 하고 있는 것도 사실입니다.

진료와 관련된 이야기가 나오면 참 가슴이 답답합니다. 진료실에 있다 보면 제한된 시간에 환자들을 보기 위해서 분초 단위로 시간을 보아야 하고, 말이 많은 환자가 들어오면 문제 해결 보다도 우선 빨리 환자를 어떻게 하면 밖으로 내보내야 하나, 뒤에 밀린 환자들의 불만 섞인 얼굴들이 떠올라서 집중이 안되는 경험을 하다 보니, 환자의 문제를 함께 해결하면서 보람을 느끼고 인간적인 만족감을 느끼는 것은 어렵습니다.

특히 제가 맡고 있는 정신건강의학과와 같은 경우는 수가가 낮기 때문에 환자를 적게 보게 되면 그 것은 바로 병원의 경영압박에 제가 기여하는 꼴이 되어서 실제로 월급이 당장 깎이지 않는다고 해도 엄청나게 부담스럽게 느껴지고, 실제로 병원에서 과의 발언권이 줄어들기 때문에 과 발전에 영향이 아주 큽니다. 매일매일 아주 뼈저리게 느끼는 부분입니다. 병원이 돌아가기 위해서 운영에 필요한 부분, 비용이 있는데 이 부분이 사실상 현재 체제 내에서는 수가에 감안이 안 되어 있습니다. 그리고 교육도 마찬가지로 나라에서는 투자는 안하고 과실만 챙기려고 하는 것 같습니다. 이런 저수가 제도 하에서 다른 과들도 힘들겠지만, 역시 정신건강의학과(특성상 아주 노동집약적일 수 밖에 없는데)의 경우에는 인원 충원도 제대로 안되고 피해를 입고 있습니다. 저의 경우에는 세부 전공분야로 소아청소년 정신의학과 정신신체의학을 하고 있는데 이 과정에서 타과에서 의뢰가 온 환아에 대한 자문 업무가 기본적으로 들어 갑니다. 하지만, 제한된 인력과 시간을 고려한다면 사실상 타과 환아에 대한 소아청소년 정신과적인 자문 진료는 본격적으로 하는 것은 현 시스템에서는 불가능하다는 것을 깨닫고 있습니다.

결국 저수가는 국가가 투자를 해야 하는데, 투자는 안하고 저수가로 생색만 내려고 하는 과정에서 속으로 의료의 질이 떨어지고 곪아서 부실을 가져오는, 다시 말해 진료의 질을 낮추게 되는 전형적인 한국사회의 특성을 보여 주는 사례라고 생각됩니다.

저는 좌담회에 나온 내용에 아주 동의를 합니다. (의료는 어느 정도 사회적이고 공적인 성격을 갖는 것이고, 사회가 뭔가 컨트롤 하려면 규제나 법률만으로는 어렵다. 투자를 해야 한다우리나라처럼 의사에게 사회가 투자를 하지 않는 곳이 없다. 알아서 의사가 되고, 알아서 개원을 하라는 식이다. 그런 면에서는 사회에서 투자를 하지 않는 곳보다 한국의사가 조금 더 받아야 한다. 투자액 대비 원가대비 개념으로 보자면 유럽은 등록금을 다 대주는 대신에 마음대로 개원을 하지 못한다. 개원도 굉장히 제한되어 있고, 사실 수입도 그렇게 높지 않다.) 국가에서 투자가 좀 더 되어야 합니다. 한국에서 사회보험급여와 정부보조로 이루어진 공공부문의 비중은 2008년 55.5%로 상당히 증가했지만 OECD 국가에서 세 번째로 낮은 수준이며 민간부문 재원에 대한 과도한 의존이 심각한 문제입니다.

의료 시설 건립 및 의료 인력 교육을 다 국가에서 투자를 제대로 하지 않으면서 ,사실상 민간의료기관에 맡겨 놓은 상태에서, 존재 자체가 영리를 추구할 수 밖에 없게 해놓고 저수가로 생색만 내려고 하니 계속 반발이 나올 수 밖에 없고, 의료의 질은 질대로 떨어질 수 밖에 없다고 생각합니다. 저는 미국처럼 상업적인 의료기관이 나오고 의료비가 천장을 뚫게 하는 것을 전혀 바라지 않으니, 국가가 어느 정도 의료기관이 운영되고 질이 어느 정도 보장이 될 정도로 수가를 보장해 주는 투자를 했으면 합니다. 

대충해서 덮어 두면 알아서 해결된 문제가 아니라는 것이 저의 생각입니다. 계속 이대로 가면 어떻게든 유지는 되겠지요, 하지만, 질의 저하는 불을 보듯이 뻔한 문제입니다. 생존이 우선이니 질이라도 떨어뜨려야 생존을 지속할 수 있을 테니까 말입니다.

대학병원 3분진료에 2시간을 기다린다는 이야기가 이전에 나오곤 했었는데, 대학병원은 이렇게 해야 수지타산을 맞출 수 있다는 이야기도 같이 나와야 하고 그러려면 저수가가 해결되고, 개원가와의 의료 연계가 원활하여져야, 저수가에 대학병원에서 개원가의 환자까지 빨아들여서 수지타산을 맞추려고 하고, 개원가가 힘들어지면서 일차 의료 체계가 무너지는 일이 없어질 것입니다. 개원가가 유지되는 것은 정말 중요합니다. 지금은 제가 대학병원에 있다고 하더라도 결국은 저도, 아니 대학병원 의사들 대다수는 개원가로 돌아가야 할 사람이니까는 말입니다.




표준점수에 대해서 설명



표준점수에 대해서 알아두어야 할 것들이 있어서 올립니다.


이 정보는 (http://blog.naver.com/chunsa1009/60181605771)에서 가져 왔습니다.


• 백분위점수가 실제 분포 모습을 그대로 반영하지 못하기 때문에 많은 검사에서 검사결과를 작성하는 방법으로 흔히 표준점수(standard score) 사용
• 백분위는 100단위로 한 등위(rank)를 나타내는 서열척도로 여러 가지 복잡한 통계적 처리를 할 때 등간척도로 점수로 전환시키는 것은 상당히 중요한 일임
• 전환점수의 하나인 표준점수(standard score)는 등간성을 가정하는 점수척도
• 표준점수는 원점수와 평균 간의 거리(표준편차 단위상에서의 거리)라고 정의할 수 있음, 즉 내담자의 원점수(X)에서 규준집단의 평균을 빼어 차이점수 구한 다음 이를 집단의 표준 편차로 나눔

* 표준점수는 평균으로부터 떨어진 거리와 방향을 동시에 나타낼 수 있음

1) 표준점수의 종류

<Z점수>


•Z점수는 평균을 0, 표준편차를 1로 정한 표준점수

•원점수가 평균보다 1표준편차 높으면 Z = +1.00

•Z = -1.5라면 원점수가 참조집단의 평균으로부터 하위 1.5표준편차만큼 떨어져 있다는

•원점수를 표준점수로 변환하는 몇 가지 의의

① 표준점수의 절대값은 분포의 평균으로부터 그 점수가 얼마나 떨어져 있느냐의 거리를 나타냄, 평균보다 큰 점수는 +부호가 붙고 평균보다 작을 때에는 -부호가 붙음
② 표준점수는 등간척도라고 가정함으로써 가감승제의 여러 가지 수리적 조작 가능함
③ 표준점수는 원점수 간격의 차이의 크기를 그대로 유지함,

즉 백분위 변환과는 달리 기저하는 측정의 척도를 왜곡하지 않음

예) 평균 50, 표준편차 10인 검사에서 A, B, C, D 네 명의 학생이 차례로 55, 60, 70, 80점을 받음 → Z = +0.50, +1.00, +2.00, +3.00

55-50÷10(표준편차)

④ 표준점수 이용하면 서로 다른 검사의 결과를 상호 비교할 수 있음

예) 공간적 사고검사(평균 100, 표준편차 15)에서 원점수 130점, 어휘력 검사(평균 90, 표준편차 20)에서 원점수 110점 → 적성능력에서 공간적 사고점수가 어휘력 점수보다 높음


공간적사고 z 검사-> 130-100÷15= +2
어휘력검사 z 검사-> 110-9-÷20= +1

⑤ 표준점수와 정상분포곡선을 결합한 점수의 해석이 가능함. 만약, 원점수 분포가 정상분포 이룬다면 표준점수 역시 정상분포를 따르고, 원점수를 Z값으로 변환할 때 특정 Z값에 해당하는 백분위도 정확히 계산 가능.

예) 지수는 자아효능감 검사에서 52점을 받았습니다. 단 이 검사는 100명의 학생들을 대상으로 하여 평균점수 64.10, 표준편차 11.00인 검사입니다. 지수의 점수를 표준점수로 변환하세요.


52-64.1÷11=-1.10 (Z=-1.10)


• Z = -1.5라면 원점수가 참조집단의 평균으로부터 하위 1.5표준편차만큼 떨어져 있다

예) 소이는 자아효능감 점수에서 86점을 받았습니다. 이 검사는 100명을 대상으로 한 학생들의 평균이 64, 표준편차가 11인 검사입니다. 그렇다면 소이의 Z점수는 얼마인가요? 

Z=+2

<T 점수>

• T점수는 Z점수를 변환하여 만든 또 다른 표준화 점수
• 계산공식은 T = 10 Z + 50
• 평균 50, 표준편차 10, 20~80점 사이에 T점수가 대부분 분포
• Z점수를 변환한 것이므로 앞서 살펴본 Z점수가 갖는 장점을 가짐. 서로 다른 점수들 비교가능, 정상분포곡선에 따른 해석 가능
• 더불어, - 점수나 소수점 이하의 점수가 없고 흔히 점수의 평균이라고 하면 50점이라고 하는 일반적인 통념과도 합치된다는 장점 가짐
• 적성, 흥미, 성격 등을 측정하는 많은 심리검사에서 규준집단의 원점수를 T점수로 만든 규준표 사용
• 검사가 T점수 규준표를 제시하고 있을 경우라도 원점수를 T점수로 변환하는 것이 과연 옳은지 다시 한 번 검토하도록
• 무비판적으로 단순하게 검사를 수용해서는 안 됨

다시 한번 컨셉을 잡기 위해서 그림과 점수표를 올립니다.







2013년 11월 25일 월요일

group analysis - ordinary least squares (OLS) vs. generalized least squares (GLS)

이전 글에서 fixed와 mixed model analysis에 대해서 설명한 것에 이어집니다.

보통은 first level (within-subjects; modeling data for each subject separately)와 second-level (inter-subject; modeling a  mean for each group)와 나눕니다.

이 때에 first level의 analysis에서 나온 subject-specific parameter estimate들을 사용해서 second level의 modeling을 진행하는 경우가 있겠고 (보통 동시에 추정을 하게 되는데, 보통 변량이 크기가 큰 bad subject보다 변량의 크기가 작은 good subject에 더 많은 가중치를 부여하는 weight linear regression을 하게 되며, generalized least squares (GLS) 기법이라고 합니다), 좀 더 연산을 가볍게 하기 위해서 within-subject의 변량이 각 subject마다 동일하다고 간주하여서 연산부담을 줄이는 ordinary least squares (OLS) 기법이 있을 수 있습니다.

single group 비교에서는 second level에서 OLS, GLS를 하는가에 따른 차이가 크지 않으나 둘 이상의 그룹이 비교가 되거나, covariate를 사용하여서 second-level regression을 통한 modeling을 할 때에는 GLS가 더 선호된다고 합니다.


group analysis - fixed versus mixed effects model

우선 group analysis를 할 때에는 중요한 것이 within-subject variance와 between subject variance에 대한 이해를 해야 합니다.

예를 들어서 설명을 하여 보도록 하겠습니다.

4명의 남자와 4명의 여자들에게서 각기 머리카락을 뽑아서 남자와 여자들에서의 머리카락의 길이를 비교하려는 실험을 한다고 합니다.

이 때에 변량에는 한 개인의 머리카락들 중에서의 길이의 차이 (within-subject variance)와 각기 다른 사람들 사이에서의 다른 헤어스타일에 따르는 길이의 차이 (between subject variance)가 있게 됩니다.

이 때에 각 4명씩의 남자와 여자들에서 각기 남자와 여자들을 대표하려면, 남자 4명은 남자들에서, 여자 4명도 각기 여자들 중에서 무작위로 뽑혔다고 할 수 있어야 할 것입니다.

그런데, 각기 남자와 여자들을 대표하는 데에는 관심이 없고 바로 이 총 특정 8명의 남녀에서만 남자와 여자 사이에서 머리 길이의 차이가 있는지만 보려고 한다고 하면 이 때에는 between subject variation - 대표성을 갖게 하기 위해서 모집단에서 어떠한 사람들을 뽑는가에 따라서 발생하는 변량 - 은 고려를 할 필요가 없게 됩니다. 따라서 between-subject variation은 neglect를 할 수 있게 되고 이 때에 우리는 fixed effect analysis를 하게 됩니다.

그러나 대표성을 갖게 하기 위해서 모집단에서 어떠한 사람들을 뽑는가에 따라서 발생하는 변량을 random effect라고 말을 하고, 이 것까지 포함시켜서 우리가 modeling을 할 때 우리는 mixed model을 사용한다고 말하게 되고 이를 사용한 것을 mixed effect model이라고 부릅니다.

아래의 그림을 보시면 더더욱 이해가 쉬워지실 것입니다.





2013년 11월 23일 토요일

multiple testing problem에 대한 solution (4/4) - non-parametric - permutation test - randomise in fsl

fsl에서 permutation method를 사용하기 위한 도구로 사용되는 것은 randomise 툴을 사용하는 것입니다

Randomise 시에 추천되는 옵션은 TFCE (threshold-Free cluster enhancement)입니. Cluster-based thresholding voxel-based보다는 더 민감도가 높지만 이를 통한 결과들이 initial thresholding level에 아주 의존적인데, level을 선택하는 것에 대한 원칙이나 객관적인 방법이 없다는 약점이 있습니다. 따라서 대안으로 사용되는 TFCE의 경우에는 cluster-based thresholding에 유사하나 일반적으로 더 강력하고도 임의로 initial cluster-forming threshold를 설정할 필요가 없습니다. 이 옵션을 preprocessed data에 사용하기 위해서는 --T2 옵션을 추가하면 됩니다. 아래에 구체적인 실례를 들어서 설명을 하여 보도록 하겠습니다.

randomise 옵션 사용하기:

자료에서의 노이즈가 simple distribution을 따르지 않거나 자료를 summarize하기 위하여 non-standard statistics가 사용될 때 null distribution을 알 수 없게 된다. 이렇게 null distribution이 알려지지 않을 때에 permutation method(다른 말로 randomization method) statistic map들에 대한 inference (thresholding)를 위하여 사용된다. Randomise standard GLM 디자인 setup을 사용하여 modeling inference를 가능하게 하여 주는 단순한 permutation program이다. Randomise의 수식은 다음과 같다.

randomise -i <4D_input_data> -o <output_rootname> -d design.mat -t design.con -m <mask_image> -n 500 -D -v 5 --T2 -V

여기에서 –i 파라미터 뒤의 4D_input_data를 기반으로 하여 -o 파라미터 뒤의 output_rootname으로 test statistic image를 만들어 내게 된다.

design.matdesign.con design matrix와 필요한 contrast들의 명단을 포함하는 text file들이다.

–n 옵션은 randomise가 테스트할 null distribution을 구축하기 위하여 보통 500(5000회를 추천) permutation을 수행하도록 하는 것이다. 이 옵션을 빼면 자동으로 5000회의 permutation을 수행한다.

-D 옵션은 randomise가 데이터를 demean하도록 하는 것인데 이 것은 design matrix에서 mean을 모델링하지 않을 때에 필요한 옵션이다. –D 옵션의 사용 유무는 design matrix를 어떻게 짜는가에 달려있다. 예를 들어서, mean predictor design matrix안에 포함이 되어 있다면, -D를 사용하지 않는다. 그러나 만약에 mean predictor design matrix안에 포함되지 않는다면 그 때에는 –D 옵션을 꼭 사용하여 주어서 mean data ( design)에서 제거가 되도록 하여 주어야 한다.

-v 옵션: You can potentially improve the estimation of the variance that feeds into the final "t" statistic image by using the variance smoothing option -v <number> where you need to specify the spatial extent of the smoothing in mm

--T2 옵션은 TFCE를 사용하기 위한 옵션이다. (주의: These optimizations are different for different "dimensionality" of your data; for normal, 3D data (such as in an FSL-VBM analysis), you should use just the -T option, while for TBSS analyses (that is in effect on the mostly "2D" white matter skeleton), you should use the --T2 option)

-V 옵션: a deprecated flag (중요도가 떨어지는 기호, verbose mode를 활성화시키기 위해서 사용하는 옵션이지만 이미 randomise에서는 초기치로 잡혀 있다. 따라서 생략 가능)





2013년 11월 22일 금요일

multiple testing problem에 대한 solution (3/4) - FWE(R) - non-parametric

multiple tests들에 대해서 type I error( false positive error)를 측정하는 방법들로  두가지가 계열이 있습니다첫번째가 'familywise error rate'(FWE)이고 두번째가 false discovery rate입니다.

그러면 각각에 대해서 다시 한번 설명을 하여 보겠습니다.

familywise error rate (FWER, FWE): probability of making at least one Type I error, given the total number of statistical tests

false discovery rate (FDR): probability of having at least one false positive results, given the set of reported positive results

(정의를 보시면 각각의 수치의 개념이 다르다는 것이 일단 이해가 되실 것입니다. 그럼 이번 포스트에서는 FWER 중 이전의 포스트에 이어서 이번에는 non-parametric approach에 대한 설명을 드리겠습니다.)


이처럼 P-value를 추정하기 위하여 매개변수적 통계가정(parametric assumption)들을 사용하는 것 대신에 대신에 비매개변수적 접근법(non-parametric approach)를 사용할 수도 있습니다. 여기에 대표적인 two m/widely used resampling methods들이 permutation test bootstrap입니다.


P값을 추정하기 위하여 데이터에 관한 매개변수적 가정(즉 데이터는 이미 정규분포를 한다고 간주하는)을 하늗 대신에, 관심의 대상이 되는 test statistic에 대해서 empirical하게 null distribution들을 얻기 위하여 데이터 자체를 사용하는 것이 이 non-parametric approach라고 하겠습니다.

실제로는 이 중에서는 boostrap이 가장 많이 알려져 있을 것이라고 합니다(그러나 본인은 똑같이 생소함 - 이 것이 함정). 하지만 bootstrap의 문제는 asymptotic method(번역을 하여보면 점근적 기법이라고 번역되는 데 뭔말인지 잘 모르겠지만 일단 중요한 것은 샘플 사이즈가 커야만 하는 기법이라고 합니다.)라는 점입니다. 따라서 large-sample에서만 probably correct하다고 말할 수 있다는 제한점이 있습니다. 

대조적으로 permutation test는 small sample들에 대해서도 bootstrap 기법에 비하여도 FWE-corrected p-value들을 추정하는데 유용하다고 합니다.

permute가 동사로 바꾸다는 뜻이 있습니다. 그래서 permutation test라면 바꾸어서 섞다라고 이해하시면 됩니다. 이해하기 쉽게 두 그룹을 들어서 설명을 하여 보겠습니다. 단지 하나의 voxel에 대해서 각기 10명으로 된 두 그룹(H, L)들을 비교한다고 합시다. 귀무 가설(null hypothesis) 하에서는 두 그룹간의 차이가 없다고 할 수 있습니다. 그렇다면 그룹의 라벨을 임의로 해서, 임의로 10명을 뽑아서 H라고 하고 다시 그 자료를 분석한다면, 역시 새롭게 형성된 두 그룹간에서도 차이가 없게 나와야 할 것입니다. 이 것이 permutation test의 기본 원리입니다. - repeatedly shuffling the assignment of experimental lables to the data, and analyzing the data for each shuffle

따라서 label들의 각기 다른 different permutation들을 계속해서 반복해 가면서 자료들을 재분석하는 과정을 permutation test에서는 거치게 되고, 따라서 일차적인 이 test의 단점은 intensive computation이라고 합니다. 하지만, RFT 계산에 비해서 복잡하기는 해도, 결과의 정확성을 위해서는 감내할 만한 가치가 있다고 합니다.

중요한 것은 , FWE-corrected result가 필요할 때는 일반적으로 group fMRI data의 모든 추론에 대해서는 permutation test를 사용할 것을 권장한다고 합니다.

multiple testing problem에 대한 solution (2/4) - FDR

familywise error rate (FWER, FWE): probability of making at least one Type I error, given the total number of statistical tests

false discovery rate (FDR): probability of having at least one false positive results, given the set of reported positive results

이전의 포스트에서 FWER에 대한 이야기를 하였는데 이제는 FDR에 대한 이야기를 하여 보겠습니다.

FWE-corrected voxel-level test들이 신경 영상연구에서 가장 일반적으로 쓰이는 방법이기는 하지만, 이 것이 너무 보수적이어서 막상 실제 연구를 해보면 insensitive하여서 (correction에서 survival하지 못하였다고 표현합니다) no result가 나오는 경우가 많습니다.

 따라서 이 경우에는 좀 더 관대(lenient)한 방법으로 대안이 되는 것이 false discovery rate (FDR)입니다. false discovery proportion (FDP)는 전체 positive 결과가 나온 voxel들 중에서 false positive로 감지된 voxel의 비율을 말합니다.  FDP는 직접 측정할 수 없지만, FDR 기법에서는 average FDP가 95% of the time에서 옳게끔 통제되도록 guarantee를 하여 줍니다.

FDR은 다시 말하면 rate of false positives (FDP)를 less than the chosen threshold value로 control합니다.

multiple testing problem을 해결하기 위하여 FWER과 FDR 중에서 어느 것을 control할 것인가가 문제가 될 때, FDR을 사용하는 것은 FWER을 사용하는 것에 비하여 다음 두 가지의 장점이 있다고 합니다.

1. FDR uses less-stringent correction than FWER especially when there are many activated voxels.

2. Whereas FWER controls the proportion of false (positive) tests, FDR controls the proportion of false (positive) claims. --> 실제 연구와 관련해서 생각을 해 보시면 이 부분이 납득이 갑니다. 실제 연구에서는 여러 test들을 수행하며, 결과로 얻어지는 각 data set들에서 유의한 결과가 나올 가능성들도 낮습니다(low probability of significance). 이러한 상황에서 연구자들이 total number of statistical tests - 전체 뇌에서 일일이 개별적인 voxel들 - 에 신경을 쓰는 것보다는, reported positive results들 - activation clusters in a table - 에 신경을 쓰는 것을 당연히 더 선호할 것입니다.

(*claim은 유의한 결과가 나온 부위들을 지칭합니다)

아래의 그림을 보시면 FDR은 no correction과 FWER사이의 compromise라는 것을 아실 수 있습니다. 가로로 첫 줄은 statistic image without any thresholding, 둘째 줄은 no correction, 셋째 줄은 FWER, 넷째 줄은 FDR을 예시하는 그림입니다.



그러나 FDR의 greater sensitivity는 (FWER에 비하여) greater false positive risk라는 댓가를 치르고 얻은 것입니다. 그리고 이 것은 FDP라는 개념을 적용해서 map을 얻은 만큼, FDR-significant한 voxel들의 map에서 그러나, 개별 single voxel을 찝어서 그것이 significant하다고 결론을 내릴 수가 없습니다. 단지 평균적으로 5% 미만의 voxel들만이 false positive하다고 말할 수 있을 뿐입니다. 그래서 이것을 lack of spatial precision이 있다고 말합니다.

따라서, SPM의 아버지인 Friston 같은 경우에는 voxel-level FDR은 전혀 사용되어서는 안된다는 말까지 남긴 바가 있습니다.
그래서 많이 사용하는 것이 대신 cluster-level FDR입니다.