ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • p값 개선하자
    Statistics 2019. 1. 22. 21:35

    “p값 개선하자”…과학자들, 연구가설 검정 ‘문턱값’ 강화 제안

    박준석 2017. 08. 16

     뉴스 & 해설  

    통계·심리·경제학 등 72명, 개선제안 논문 펴내 주목


    과학 재현성 위기 반영 "현행 0.05에서 0.005로 내리자"

    채택 땐 연구현장에 상당한 변화…한동안 논쟁 이어질듯


    pvalue5.jpg 


    근 정식 출간에 앞서 공개된 한 논문 한 편[1]이 뜨거운 이슈로 떠올랐다. 통계학, 심리학, 경제학, 의학 등 다양한 분야의 연구자 72명의 이름으로 과학저널 <네이처 인간 행동(Nature Human Behavior)>에 게재될 이 논문의 요지는 간단하다.


    ‘새로운 발견을 했다고 주장하는 데 필요한 ‘P값’의 기준을 0.05에서 0.005로 내려야 한다’라는 것이다. 이는 저자들이 제공하는, 논문의 한 줄 요약이기도 하다. 저자들은 그동안 사용되어 온 기준이 충분히 엄밀하지 못했다고 주장하면서 개선안이 수용되면 다양한 분야의 과학 연구들의 재현성이 즉각 개선될 것으로 기대하고 있다. 


    pvalue1.jpg» 이 논문의 요약은 실제로 한 줄이다. 


    이 제안이 동료심사 과정을 거쳐 연구논문을 싣는 학술지들의 편집 정책에 실제로 반영되면 연구 현장에서 받을 영향은 꽤 클 것으로 예상된다. 이 글에서는 이와 관련하여 무엇이 문제인지, 논문이 제시하는 해결책은 무엇인지, 그리고 그 전망과 의의에 대해 소개하고자 한다.



    무엇이 문제인가?: 0.05라는 문턱값

    00dot.jpg 

    위에서 말한 ‘기준’이란 과학적 증거를 평가하는 데 흔히 사용되는 값인 ‘P값’이 통계적으로 유의하다(significant, 의미 있다), 다시 말해 과학적 발견이 참이라고 간주하는 데 기준이 되는 문턱값을 일컫는다.


    P값에 대해서는 지난 글들에서도 다룬 바 있지만(☞ 지난 글 1지난 글 2), 여기서 간단히 다시 설명한다. 어떤 과학적 가설이 참인지를 통계적으로 검증하고자 할 때, 과학자들은 연구가설 자체를 검증하지 않는다. 대신 그들은 ‘가설이 틀렸다’라는 주장을 기각함으로써 연구가설의 타당성을 간접적으로 입증하려 한다. 이 주장을 ‘영가설’ 또는 ‘귀무가설’이라 부른다. 영가설이 데이터를 잘 설명하지 못하면 이것을 기각하고 연구가설을 받아들일 수 있다.


    pvalue2.jpg» 현대 통계학의 아버지 로널드 피셔(Ronald A. Fisher) 경. 그는 0.05라는 문턱값에 특별한 의미를 부여하지 않았지만 후대에 와 그 기준은 절대적인 것으로 받아들여졌다. 출처/ https://en.wikipedia.org/wiki/Ronald_Fisher이것이 가능한지 판단하기 위해, 연구자들은 P값이라 불리는 통계치를 계산한다. P값은 영가설이 참이라는 가정 하에서 같은 실험을 반복했을 때, 관측된 자료 이상으로 극단적인 자료가 관측될 확률을 일컫는다. 관측된 데이터 자체가 극단적일수록 그보다 ‘더 극단적인’ 자료의 비율, 다시 말해 P값이 작아지는데, 이를 거꾸로 해석하자면 P값이 작다는 것은 데이터가 영가설이 참이라는 가정에서 볼 때 극단적이라는, 다시 말해 영가설에 의해 잘 설명되지 않는다는 것을 의미한다.


    연구 현장에서는 P값이 충분히 작으면 영가설을 기각하고 연구가설이 옳다고 결론 내리는데, 그 문턱값으로는 흔히 0.05를 사용하고 있다. 이 특정 문턱값을 사용하는 데에는 특별한 이유가 없으며, P값을 처음 제안한 통계학자인 로널드 피셔(Ronald Fisher)가 예로 든 것이 관행적으로 정착된 것이다.


    논문 저자들은 이 문턱값이 지나치게 낮다고 주장하고 있다. 실제로 0.05라는 문턱값을 통과해 출간된 연구 결과들이 재현에 실패하거나, 애초에 그 진실성이 의문스러운 사례가 계속 보고되어 논란을 일으켜 왔다.


    연구가설이 참이 아니거나, 그 효과가 매우 미미할 때에도 0.05보다 낮은 P값을 얻는 것은 불가능하지 않은데, 이런 의문스러운 과정을 거쳐 출간된 과학 연구는 다른 연구자들이 다시 검증해 보았을 때 같은 결과가 나오지 않을 가능성이 높다. 실례로 2015년 브라이언 노섹(Brian Nosek) 등에 의해 출간된 <사이언스> 게재 논문[2]에서는 유명 심리학 학술지에 실린 100편에 가까운 연구를 재현하려 시도했는데, 그 중 채 절반도 재현되지 않는 것으로 드러나 충격을 주었다. 심지어 2011년에는 인간이 초자연적 인지 능력을 갖고 있다는 주장을 실은 연구[3]가 유명 학술지에 출간되기도 했는데, 이 연구의 결론도 0.05보다 작은 P값을 근거로 출간된 것이어서 0.05를 문턱값으로 삼는 것이 타당한지에 대한 논란을 일으켰다. 


    pvalue3.jpg» 코넬대학교의 심리학 명예교수 대릴 벰(Daryl Bem)은 2011년에 <성격 및 사회심리학 저널(Journal of personality and social psychology)>에 출간된 논문에서 인간에게 초자연적 예지력이 있음을 주장하여 논란에 휩싸였다. 그의 ‘발견’들은 0.05보다 작은 P값들을 그 증거로 삼았다. 출처/ http://discovermagazine.com/2012/mar/09-paranormal-circumstances-scientist-mission-esp지난 2005년 스탠포드대학 의대의 존 이오아니디스 교수는 이와 관련해 0.05를 문턱값으로 삼아 출간된 대부분의 연구 결과가 실제로는 거짓일 가능성을 제기하기도 했다.[4] 이와 같은 이유로 0.05를 문턱값으로 적절하지 않게 생각하는 연구자들이 생겨났고, 그 정도가 심각하다는 공감대가 형성되어 왔다. 72명이라는 논문 저자들의 숫자가 문제의 심각성에 대한 인식 수준을 보여준다.


    저자들은 0.05를 사용하는 데 따르는 문제점들을 계량적으로 분석했다. 저자들에 의하면, P값이 0.05일 때 연구가설이 참일 확률은 영가설의 그것에 비해 2.5~3.4배라고 한다. 이를 토대로 ‘연구가설이 맞을 확률’을 계산하면 75%가량인데, 이를 뒤집어 말하자면 영가설이 옳을 확률(연구가설이 틀렸을 확률)도 25% 정도나 된다는 것이다. 저자들은 이것이 연구가설을 뒷받침하기에는 ‘약한 증거’라고 주장한다. 또한 0.05를 문턱값으로 사용하면, 연구에 사용되는 사례의 수를 아무리 늘려도 위양성 결과의 비율(참이라고 간주되어 출간된 연구 결과들 중 실제로는 참이 아닌 연구의 비율)은 최소 33% 를 상회한다는 시뮬레이션 결과도 또한 내놓았다. 이런 분석 결과들을 토대로, 저자들은 0.05라는 문턱값은 부적절하다고 주장한다.



    그래서 어떻게 할 것인가?: 0.005로 낮추자

    00dot.jpg 

    저자들이 제시하는 해결책은 간단하다. 문턱값을 0.05에서 0.005로 낮추자는 것이다. 또한 기존의 0.05라는 문턱값보다는 작은, 하지만 0.005보다는 큰 P값들은 ‘제안적인’ 결과로 부르자고 제안한다. ‘제안적인’ 연구 결과들은 그 자체로서는 불충분하지만, 향후 후속 연구가 필요하다는 의미로 해석하자는 것이다.


    실 0.05의 문제를 해결하기 위해 취할 수 있는 대책들은 이밖에도 많이 있다. 실제로 논문 저자들 중 상당수가 개인적으로는 P값을 사용하는 것 자체가 부적절하다는 입장을 갖고 있다. 그럼에도 불구하고 이런 대책을 내놓은 것은 거짓 결과가 과학 문헌에 범람하는 현실을 빠르게 바로잡아야 한다는 절박감, 그리고 현장에서는 P값이 아직 압도적으로 널리 쓰이는 현실을 고려한 조처인 것으로 보인다.


    pvalue4.jpg» 2016년 <네이처>에 발표된 한 설문조사에서는 조사 대상 1576명의 연구자들 중 90%가 재현성 위기가 있다는 데 동의했다. 응답자들 중 절반 이상은 그 정도가 ‘심각하다’라고 답했다. 출처/ http://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970대부분 연구자들이 훈련 과정에서 P값을 사용하여 가설을 검증하도록 교육받아 왔고 현재도 그러하며, 0.05가 그 과정에서 암묵적인 문턱값으로 수용되고 있는 현실을 감안할 때, 문턱값만 바꾸는 것은 지금 당장 쉽게 실행에 옮길 수 있으면서도, 과학자들에게 더 엄밀한 증거를 제시할 것을 요구하는 조치라는 것이다.


    이 조치는 거짓 결과의 논문 출판을 줄일 것으로 기대된다. 연구자들의 시뮬레이션 결과에 의하면, P값이 0.005일 때 연구가설이 참일 확률은 영가설의 그것에 비해 적게는 14배에서 많게는 26배에 달한다고 한다. 이는 0.05를 문턱값으로 사용할 때 2.5~3.4배인 것에 비해 연구가설을 훨씬 더 지지하는 수치다. 또한 P값이 0.005일 때 ‘연구가설이 참일 확률’의 최소값과 ‘영가설이 참일 확률’의 최대값을 각각 계산해 보면 각각 93.3%와 6.7%가 나온다. P값이 0.05일 때 각각 75%, 25%였던 것에 비하면 큰 진전이라 할 수 있다. 또한 0.05 대신 0.005를 문턱값으로 사용하면, 이전에 위양성 결과의 비율을 33% 밑으로는 낮추기 매우 어려웠던 것에 반해 그 비율을 5%까지 낮출 수 있다고 저자들은 주장한다. 이러한 이유들로 P값의 문턱값을 낯추어야 한다고 저자들은 주장한다.



    전망

    00dot.jpg 

    statistics22.jpg이 조치는 실제로 적용되면 연구현장에 즉각, 큰 영향을 끼칠 것으로 기대된다. 가장 직접적이고 확실하게 예상되는 변화는 개별 연구에 들어가는 비용의 증가다. 연구자들은 기존에 비해 더 강력한 증거를 내놓아야 논문을 출간할 수 있을 것인데, 이를 위해서는 더 많은 사례를 수집해야 한다. 그런데 가용 자원은 한정되어 있다는 문제에 봉착할 것으로 보인다. 더 낮은 P값을 얻기 위해서는 일반적으로 더 많은 수의 사례가 요구된다. 그리고 이것은 즉각 더 높은 연구 비용으로 이어질 것이다. 이는 연구자의 부담을 높일 것이다. 


    편 어떤 분야에서는 많은 사례를 모으는 것 자체가 어려울 수도 있다. 이를테면 성 소수자 연구 등의 분야에서는 연구자가 원한다고 해서 연구 집단의 크기를 마음대로 늘리기 힘들지도 모른다. 이런 분야에서는 P값의 문턱을 대폭 낮추라는 요구를 즉각 수용하기 어려울지도 모른다.


    또 다른 문제는 ‘거짓 음성’ 이 증가할 수 있다는 것이다. 거짓 음성은 연구 가설이 실제로는 참인데 통계분석 과정에서 ‘참’으로 인정받지 못하는 경우를 일컫는다. 연구에 사용되는 자료에는 언제나 각종 ‘잡음’이 개입되기 때문에, 실제로는 참인 가설을 검증한다 하더라도 언제나 통계적 결론이 ‘옳다’ 라고 나오지는 않는다. 여기서 ‘옳음’으로 인정하는 기준을 대폭 강화하면, 실제로는 옳은데도 불구하고 그러한 결론에 도달하지 못하는 경우가 증가한다. 발견으로 이어졌어야 할 연구가 틀린 것으로 오인되고 사장되는 것이다. (통계학에서는 이를 2종 오류라 부른다.) 일부 연구자들은 이를 우려하고 있다. 이 문제를 해결하기 위해서는, 다시 말해 P값의 문턱값을 낮게 유지하면서도 거짓 음성이 증가하는 것을 방지하기 위해서는 연구에 사용되는 데이터의 크기를 함께 늘려야 하는데, 이는 결국 첫 번째 문제로 귀결된다.


    연구 비용 증가의 문제에 대해 논문 저자들은 다음과 같이 답한다. 물론 개별 연구의 비용이 증가할 수 있다. 구체적으로는, 거짓 음성 비율의 상승을 방지하기 위해서는 약 70% 가량 표본 수를 늘려야 할 것으로 예상된다. 하지만 전반적으로 거짓 발견이 줄어들면 그에 기반을 둔 잘못된 후속 연구도 줄어들며, 이로 인한 편익이 개별 연구의 비용 증가에 비해 더 큰 이익이라고 저자들은 주장한다. 또한 지나치게 작은 표본을 사용하여 수행된 연구에서 발생하기 쉬운, 실험적 처치 효과가 과대 추정되는 문제도 해결될 수 있다고 주장한다.



    의의

    00dot.jpg 

    이번 제안은 과학의 재현성이 위협받고 있다는 위기의식, 그리고 거짓 결과가 문헌에 지나치게 많이 실리고 있다는 경각심을 반영한다. 그리고 이를 더 이상 방치할 수 없다는 공감대가 연구자들 사이에서 고조되고 있음을 보여주는 증거이기도 하다. 하지만 이번 제안이 실제로 적용되기까지는 상당한 시간이 걸릴 것으로 예상된다. 아직 구체적 시행 방안에 대한 합의가 없기 때문이다. 사실 이 조치를 모든 분야에 일괄적으로 적용할 수 있는 것도 아니다. 


    서 잠깐 언급했던 것처럼 이번 제안은 궁극적인 해결책이라기보다는 당장 재현성을 개선하기 위한, 현실을 고려한 임시방편으로 이해하는 것이 타당할 것이다. 이 대책이 학술지들에서 실제로 받아들여질지 그 여부는 아직 지켜봐야 할 것으로 보인다.


    [주]


    [1] Benjamin 등, Redefine statistical significance, PsyArXiv 사전출판본. https://osf.io/preprints/psyarxiv/mky9j/

    [2] Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.

    [3] Bem, D. J. (2011). Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. Journal of personality and social psychology, 100(3), 407.

    [4] Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8), e124.

    박준석 미국 오하이오주립대학 심리학 박사과정   

    @한겨레 과학웹진 사이언스온


    [출처] http://scienceon.hani.co.kr/540289?fbclid=IwAR06uG8_HUCk9H360KbDs8yeoNRb6pUOSdP1d0-fJo6I_NcgUb7mJe4MYlA


Designed by Tistory.