Statistics
-
예측 작업의 기본 단계Statistics 2019. 6. 13. 23:02
예측 작업의 기본 단계 1단계 : 문제 정의 2단계 : 정보 수집 - 통계 데이터 - 데이터를 모으고 예측값을 사용하는 사람의 누적된 전문 지식 3단계 : 탐색적 데이터 분석 4단계 : 모델(모형) 선택 - regression model - exponential smoothing method - Box-Jenkins ARIMA model - dynamic regression model - hierarchical prediction model - neural network - vector autoregression 5단계 : 모델 평가 및 진단
-
다양성(variability) = 변이 = 다름Statistics 2019. 3. 12. 21:18
다양성(variability) 또는 변이는 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져 있는지를 나타내는 산포도(dispersion)를 나타낸다. 다양성(변이, 다름)을 측정하고, 다양성(변이, 다름)을 줄이고, 실제 다양성(변이, 다름)과 랜덤을 구분하고, 실제 다양성(변이, 다름)의 다양한 요인들을 알아보고, 다양성(변이, 다름)이 있는 상황에서 결정을 내리는 등, 통계의 핵심에 이 다양성(변이, 다름)이 있다. [출처] 데이터 과학을 위한 통계, 피터 브루스/앤드루 부르스 지음, 이준용 옮김, 한빛미디어, p32
-
p값 개선하자Statistics 2019. 1. 22. 21:35
“p값 개선하자”…과학자들, 연구가설 검정 ‘문턱값’ 강화 제안보내기박준석 2017. 08. 16 뉴스 & 해설 통계·심리·경제학 등 72명, 개선제안 논문 펴내 주목 과학 재현성 위기 반영 "현행 0.05에서 0.005로 내리자" 채택 땐 연구현장에 상당한 변화…한동안 논쟁 이어질듯 최근 정식 출간에 앞서 공개된 한 논문 한 편[1]이 뜨거운 이슈로 떠올랐다. 통계학, 심리학, 경제학, 의학 등 다양한 분야의 연구자 72명의 이름으로 과학저널 에 게재될 이 논문의 요지는 간단하다. ‘새로운 발견을 했다고 주장하는 데 필요한 ‘P값’의 기준을 0.05에서 0.005로 내려야 한다’라는 것이다. 이는 저자들이 제공하는, 논문의 한 줄 요약이기도 하다. 저자들은 그동안 사용되어 온 기준이 충분히 엄밀하지 못..
-
데이터는 어떻게 전략이 되는가Statistics 2018. 12. 17. 21:49
데이터는 어떻게 전략이 되는가 미국을 비롯한 서구에서는 RCT 등을 이용한 인과관계 분석이 기업이나 정부의 의사결정에 널리 활용되고 있다. 성공의 첫 번째 조건은 기업, 정부와 데이터 분석 전문가의 협력 관계다. 성공의 두 번째 조건은 데이터 분석자가 데이터에 접근할 길을 넓히는 것이다. 이 장에서는 미국의 사례를 중심으로 데이터 분석 전문가와 기업의 협력 관계, 데이터 분석 전문가와 정부기관의 협력 관계를 보여주는 구체적인 사례들을 소개했다. 일본에서도 기업이나 정부기관과 데이터 분석 전문가의 협력이 시작되었고 앞으로는 이런 협력이 다양한 분야로 확대될 것으로 예상된다. [출처] 데이터 분석의 힘, 이토 고이치로 지음, 전선영 옮김, 인플루엔셜, p203
-
시간의 흐름에 따른 패널 데이터 분석Statistics 2018. 12. 17. 20:50
시간의 흐름에 따른 패널 데이터 분석 패널 데이터 분석을 이용하려면 복수의 집단에 대해 복수의 기간에 걸쳐 데이터를 수집할 수 있어야 한다. 패널 데이터 분석의 원천 1. 개입을 전후해서 개입집단과 비교집단 양쪽의 데이터를 입수할 수 있는지 확인한다. 2. 평행 트렌드 가정이 성립하는지 검증한다. 3. 평행 트렌드 가정이 성립할 가능성이 높다면 두 집단의 평균값 추이를 그래프로 그림으로써 개입 효과의 평균값을 측정한다. 패널 데이터 분석의 강점 1. 필요한 데이터만 확보된다면 RDD나 집군분석 이상으로 광범위하게 이용할 수 있다. 2. 결과를 그래프로 보여줄 수 있어 쉽고 투명한 분석이 가능하다. 3. 개입집단 전체에 대한 개입 효과를 분석할 수 있다. 분석 대상이 제한된 RDD나 집군분석에 비해 강점이..
-
계단식 변화가 있는 곳엔 집군분석Statistics 2018. 12. 17. 20:41
계단식 변화가 있는 곳엔 집군분석 집군분석(Bunching Analysis)은 계단식 변화를 이용하여 인과관계를 밝혀낸다. 집군분석의 원칙 1. 계단식 인센티브를 분석에 이용할 수 있는지 확인한다. 2. 분석하고 싶은 변수(X)만 계단식으로 변한다. 다른 변수는 계단의 경계점 부근에서 비연속적으로 변화하지 않는다. 3. 인센티브가 크게 바뀌는 경계선에서의 데이터 집적을 분석함으로써 개인이나 기업이 인센티브의 변화에 어떻게 반응했는지 인과관계를 검증한다. 집군분석의 강점 1. 분석에 필요한 가정이 성립하면 경계선 부분에서 마치 RCT가 실시된 듯한 상황을 이용할 수 있다. 2. 결과를 그래프로 보여줌으로써 투명한 분석이 가능하다. 3. 계단식으로 인센티브가 변화하는 상황은 다양하다. RCT가 불가능할 경우..
-
급격한 변화의 경계선을 찾는 RDD(Regression Discontinuity Design)Statistics 2018. 12. 14. 16:59
급격한 변화의 경계선을 찾는 RDD(Regression Discontinuity Design) RCT를 실시할 수 없을 때는 Natural Experiment를 활용할 수 있다.Natural Experiment란 실제 실험과 유사한 상황을 이용해 인과관계를 분석하는 기법이다.RDD은 온갖 경계선을 활용하여 인과관계에 다가서는 Natural Experiment 기법이다.RDD의 원칙 1. 경계선을 기준으로 한 가지 요인(X)만 비연속적으로 변화하는 상황을 찾아낸다. 2. 경계선 부근에서 요인(X) 이외의 요인이 비연속적으로 변화하지 않는지 검증한다.RRD의 장점 1. 가정이 성립하면 경계선 부근에서 RCT와 유사한 상황을 이용할 수 있다. 2. 주요 결과를 그래프로 나타냄으로써 이해하기 쉬운 투명한 분석이..