작성자 CRE 댓글 0 건 조회 322 회 작성일 19-12-03 18:21

“잘못된 통계로부터 과학을 구해내는 일은 마지막 단계뿐만이 아닌 모든 단계에 대한 조사를 요구한다” 

 - Jeffrey T. Leek and Roger D. Peng 


 통계에 있어 P값은 가장 비난 받는 대상이다. 수 백개의 논문과 블로그의 글들이 몇몇 통계학자들이 ‘귀무가설 중요성 테스트’(NHST, go.nature.com/pfvgqe 참조)라 비웃는 대상에 대해 논했다. NHST는 요약 통계량(P값과 같은)이 기준치를 넘었는가에 근거하여 데이터 분석 결과의 중요성을 추정한다. 이 담론에 따르면, 지난 2월 학술지 Basic and Applied Social Psychology에서 NHST 방법론(및 모든 통계적 추론) 사용의 금지를 승리로 여기는 것이 놀라울 일이 아니다.

 

이러한 금지령은 사실 연구 발표 내용의 질에 큰 영향을 미치지는 못할 것이다. 성공적인 연구의 계획과 분석에는 많은 단계가 있다. P값과 같은 추정 통계량의 계산과 이를 ‘판단 규칙’ (예: 0.05 이하의 P값)에 적용하는 것은 이 단계들의 마지막에 행해진다. 실제적으로 데이터 분석의 초기 단계에 내려지는 결정들이 결과에 훨씬 더 큰 영향을 미친다. – 실험적 설계부터 배치 효과(batch effects), 혼란 변수(confounding factors) 혹은 단순 측정 오류까지. 웬만한 수준은 통계적 유의미는 데이터가 제거, 요약 혹은 견본 처리 되는 방식의 변화로 달성시킬 수 있다.

 

 P값은 쉬운 대상이다: 널리 사용되는 만큼 널리 남용된다. 그러나 실제 사용에서 통계적 중요성을 완화하는 것은 (그 것이 의도적이든 의도적이지 않든) 결과를 얻기 위해 통계를 조작할 수 있는 더 많은 기회를 제공하는 것이다. P값을 베이즈 인수(Bayes factors)나 다른 통계 요소로 대체하는 것은 궁극적으로 정탐(true positives, 정상을 정상으로 판별)과 오탐(false positives, 정상을 비정상으로 판별)의 다른 교환을 선택하는 것이다. P값에 대해 논하는 것은 문장의 잘못된 논리를 두고 하나의 오타에만 초점을 맞추는 것과 같다. 


 더 나은 교육이 시발점이다. DNA 서열결정(DNA sequencing)이나 원격 감지(remote-sensing)를 하는 누구든지 기기를 다루는 방법을 교육받듯이 데이터 분석을 하는 연구원들도 관련된 소프트웨어와 개념을 교육받아야 한다. 나아가 데이터 분석 감독관들도 후원 기관이나 연구 기관에 의해 분석 결과와 잠재적 문제의 이해에 대한 교육 이수를 요구 받아야 한다.


 이러한 문제를 해결하기 위해 특별히 고안된 온라인 강의들이 있다. 예를 들어, 메릴랜드 주 볼티모어 소재의 존스 홉킨스 대학에서 제공하는 데이터 과학 특화(Data Science Specialization)와 데이터 카펜트리(Data Carpentry)와 같은 강좌가 관련된 교육과 연구에 잘 융합될 수 있을 것이다. 특정 분야와 관련된 컴퓨터 툴의 사용 방법을 학습하는 것은 점점 더 쉬운 일이 되고 있다-바이오 컨덕터(Bioconductor)와 갤럭시와 파이썬(Galaxy and Python)에 대한 학습도 존스 홉킨스의 게놈 데이터 과학 특화(Genomic Data Science Specialization) 강좌에 포함되어 있다. 


 그러나 교육으로는 충분치 않다. 데이터 분석은 수습기간을 통해 학습되며 각각 학문 분야들은 분석에 대해 각자의 하위문화를 가지고 있다. (데이터 분석에 대한역자) 결정은 경험적 증거 보다는 특정 공동체의 문화적 관습에 의해 내려진다. 예를 들어, 경제학자들은 시간의 흐름에 따라 분석된 데이터를 ‘패널 데이터(panel data)’라고 부르며 종종 혼합효과 모델을 이에 적용한다. 생명의학 과학자들은 같은 종류의 데이터 구조를 ‘경시적/종단 데이터(longitudinal data)’라고 부르며 일반화 추정 방정식(Generalized Estimating Equations, GEE)을 이에 적용한다. 


 통계적 연구는 대부분 수학적 통계에 초점이 맞춰져 있는데, 데이터 분석과 관련한 행동과 과정에 있어서만은 예외이다. 이러한 심각한 문제를 해결하기 위해 우리는 반드시 사람들이 실제 생활에서 데이터 분석을 어떻게 하는지 연구해야 한다. 무엇이 그들을 성공 혹은 실패로 이끌까? 사람들이 어떻게 데이터와 통계를 인지하고 소통하는지를 측정하기 위해 시각화와 리스크 이해에 대한 대조실험이 이루어졌다. 좀 더 최근에는 우리뿐만 아니라 다른 팀들도 전체적인 분석 파이프라인을 연구했다. 예를 들어, 우리는 최근 훈련된 데이터 분석가들이 데이터5의 플롯에서 P값을 어떻게 추론해내는지 모르지만 실습을 통해 학습할 수 있다는 사실을 알아냈다. 


 궁극적인 목표는 증거에 기반한 데이터 분석이다. 이는 증거 기반 의료와 유사한 것으로, 의사들은 대조 실험에서 효능이 입증된 약만 쓰도록 권장되고 있다. 통계전문가들과 그들이 가르치고 함께 일하는 사람들은 P값에 대한 논쟁을 마치고 나머지 빙산의 일각이 과학을 침몰시키는 것을 막아야 할 것이다.


 Jeffrey T. Leek and Roger D. Peng., 28 April 2015., 

Ridding science of shoddy statistics will require scrutiny of every step, not merely the last one, say., Nature comment.

등록된 댓글이 없습니다.

통계 : P값은 빙산의 일각

  • 작성일 19-12-03 18:21
  • 조회 322

“잘못된 통계로부터 과학을 구해내는 일은 마지막 단계뿐만이 아닌 모든 단계에 대한 조사를 요구한다” 

 - Jeffrey T. Leek and Roger D. Peng 


 통계에 있어 P값은 가장 비난 받는 대상이다. 수 백개의 논문과 블로그의 글들이 몇몇 통계학자들이 ‘귀무가설 중요성 테스트’(NHST, go.nature.com/pfvgqe 참조)라 비웃는 대상에 대해 논했다. NHST는 요약 통계량(P값과 같은)이 기준치를 넘었는가에 근거하여 데이터 분석 결과의 중요성을 추정한다. 이 담론에 따르면, 지난 2월 학술지 Basic and Applied Social Psychology에서 NHST 방법론(및 모든 통계적 추론) 사용의 금지를 승리로 여기는 것이 놀라울 일이 아니다.

 

이러한 금지령은 사실 연구 발표 내용의 질에 큰 영향을 미치지는 못할 것이다. 성공적인 연구의 계획과 분석에는 많은 단계가 있다. P값과 같은 추정 통계량의 계산과 이를 ‘판단 규칙’ (예: 0.05 이하의 P값)에 적용하는 것은 이 단계들의 마지막에 행해진다. 실제적으로 데이터 분석의 초기 단계에 내려지는 결정들이 결과에 훨씬 더 큰 영향을 미친다. – 실험적 설계부터 배치 효과(batch effects), 혼란 변수(confounding factors) 혹은 단순 측정 오류까지. 웬만한 수준은 통계적 유의미는 데이터가 제거, 요약 혹은 견본 처리 되는 방식의 변화로 달성시킬 수 있다.

 

 P값은 쉬운 대상이다: 널리 사용되는 만큼 널리 남용된다. 그러나 실제 사용에서 통계적 중요성을 완화하는 것은 (그 것이 의도적이든 의도적이지 않든) 결과를 얻기 위해 통계를 조작할 수 있는 더 많은 기회를 제공하는 것이다. P값을 베이즈 인수(Bayes factors)나 다른 통계 요소로 대체하는 것은 궁극적으로 정탐(true positives, 정상을 정상으로 판별)과 오탐(false positives, 정상을 비정상으로 판별)의 다른 교환을 선택하는 것이다. P값에 대해 논하는 것은 문장의 잘못된 논리를 두고 하나의 오타에만 초점을 맞추는 것과 같다. 


 더 나은 교육이 시발점이다. DNA 서열결정(DNA sequencing)이나 원격 감지(remote-sensing)를 하는 누구든지 기기를 다루는 방법을 교육받듯이 데이터 분석을 하는 연구원들도 관련된 소프트웨어와 개념을 교육받아야 한다. 나아가 데이터 분석 감독관들도 후원 기관이나 연구 기관에 의해 분석 결과와 잠재적 문제의 이해에 대한 교육 이수를 요구 받아야 한다.


 이러한 문제를 해결하기 위해 특별히 고안된 온라인 강의들이 있다. 예를 들어, 메릴랜드 주 볼티모어 소재의 존스 홉킨스 대학에서 제공하는 데이터 과학 특화(Data Science Specialization)와 데이터 카펜트리(Data Carpentry)와 같은 강좌가 관련된 교육과 연구에 잘 융합될 수 있을 것이다. 특정 분야와 관련된 컴퓨터 툴의 사용 방법을 학습하는 것은 점점 더 쉬운 일이 되고 있다-바이오 컨덕터(Bioconductor)와 갤럭시와 파이썬(Galaxy and Python)에 대한 학습도 존스 홉킨스의 게놈 데이터 과학 특화(Genomic Data Science Specialization) 강좌에 포함되어 있다. 


 그러나 교육으로는 충분치 않다. 데이터 분석은 수습기간을 통해 학습되며 각각 학문 분야들은 분석에 대해 각자의 하위문화를 가지고 있다. (데이터 분석에 대한역자) 결정은 경험적 증거 보다는 특정 공동체의 문화적 관습에 의해 내려진다. 예를 들어, 경제학자들은 시간의 흐름에 따라 분석된 데이터를 ‘패널 데이터(panel data)’라고 부르며 종종 혼합효과 모델을 이에 적용한다. 생명의학 과학자들은 같은 종류의 데이터 구조를 ‘경시적/종단 데이터(longitudinal data)’라고 부르며 일반화 추정 방정식(Generalized Estimating Equations, GEE)을 이에 적용한다. 


 통계적 연구는 대부분 수학적 통계에 초점이 맞춰져 있는데, 데이터 분석과 관련한 행동과 과정에 있어서만은 예외이다. 이러한 심각한 문제를 해결하기 위해 우리는 반드시 사람들이 실제 생활에서 데이터 분석을 어떻게 하는지 연구해야 한다. 무엇이 그들을 성공 혹은 실패로 이끌까? 사람들이 어떻게 데이터와 통계를 인지하고 소통하는지를 측정하기 위해 시각화와 리스크 이해에 대한 대조실험이 이루어졌다. 좀 더 최근에는 우리뿐만 아니라 다른 팀들도 전체적인 분석 파이프라인을 연구했다. 예를 들어, 우리는 최근 훈련된 데이터 분석가들이 데이터5의 플롯에서 P값을 어떻게 추론해내는지 모르지만 실습을 통해 학습할 수 있다는 사실을 알아냈다. 


 궁극적인 목표는 증거에 기반한 데이터 분석이다. 이는 증거 기반 의료와 유사한 것으로, 의사들은 대조 실험에서 효능이 입증된 약만 쓰도록 권장되고 있다. 통계전문가들과 그들이 가르치고 함께 일하는 사람들은 P값에 대한 논쟁을 마치고 나머지 빙산의 일각이 과학을 침몰시키는 것을 막아야 할 것이다.


 Jeffrey T. Leek and Roger D. Peng., 28 April 2015., 

Ridding science of shoddy statistics will require scrutiny of every step, not merely the last one, say., Nature comment.