(도서) 데이터 사이언스 입문
목차를 보고
데이터 사이언스 관련 서적을 보이는 대로 집어 읽고 있는 요즘이다. 다만, 이 책에는 데이터 분석 즉 데이터와 관련된 내용 이외에 가설 수립, 유의성 검정 등 통계적 지식을 다루고 있는 것 같아 손이 갔다.
책을 다 읽고 난 후에도 <가설 수립과="" 유의성="" 검정=""> 파트의 내용에 대한 설명이 가장 마음에 들었다. 특히 귀무가설과 대립가설에 대해 어떻게 수립해야 할지 실무적인 측면에서 이해가지 않을 때가 많이 있었는데, '가설 검정에서 다루는 귀무가설은 우리가 알고자 하는 모집단의 특성에 대한 잠정적인 주장이다. ...(생략)... 귀무가설은 모집단에 두드러진 특성이 없다는 내용을 주로 다룬다.' 이 내용을 바탕으로 책을 읽고 있던 당시 진행한 프로젝트에 대한 가설을 뚜렷하게 세울 수 있었다. 나의 프로젝트 목적은 변화나, 관계나, 차이나, 영향이 있다는 주장을 담아야 하므로.가설>
‘내가 주장하고 싶은 것은 대립가설이므로, 귀무가설은 검정 과정에서 틀렸다고 입증되고 깨져야 한다.’
‘생활인구 규모가 문화 인프라 수요에 영향을 끼친다’<- 나의 대립가설
<-> ‘생활인구 규모는 문화 인프라 수요에 영향을 끼치지 않는다.’
‘추정된 생활인구 규모는 행정동별 인구 비율에 영향을 끼친다.’ <-> ‘추정된 생활인구 규모는 행정동별 인구 비율에 영향을 끼치지 않는다.’
가설 수립 -> 가설이 틀릴 확률 계산 -> “가설은 참이다” (틀릴 확률 x%) * 틀릴 확률 = 유의 확률(p-value)
귀무가설을 기각하기 위해 귀무가설이 참임에도 기각해버리는 실수의 가능성을 계산한다.
유의확률: 하필이면 내가 관찰한 표본이 ‘거의 나타나지 않는 우연한 상황’일 가능성. 즉 귀무가설이 사실 맞는데 틀렸다고 잘못 판단할 확률
Ex) 모집단과 별개로 표본평균은 정규분포를 이룬다. (표본들의 평균) 평균(뮤)에서 표준편차 2개 (뮤+-2시그마) 떨어진 곳에 95% 데이터가 분포함을 알고있다. 따라서 평뉵에서 많이 떨어질수록 매우 특이하고 드문, 평범하지 않은 이상치가 되는 것이다.
따라서, 유의확률은 내가 관찰한 표본이 모집단의 일반적인 데이터들과 달리 매우 특이한 표본일 가능성이다. 유의수준은 가설 검정시 무시하고 넘어갈 수 있는 P값의 최대치를 의미하고, 데이터 분석의 상황과 목적에 따라 자의적으로 정한다.
의학, 정밀과학에서는 주로 1%, 사회과학, 비즈니스 의사 결정에서는 주로 5% 유의수준 사용
관측치, 표본의 크기에 따라 P값은 커지거나 작아질 수 있다. 표본이 너무 많아지면 P값은 매우 작아지기 때문에 P값이 가설 검정의 지표가 될 수 없고, 표본이 적어지면 P값이 커지기 때문에 귀무가설을 무조건 받아들여서도 안 된다. 표본이 부족할 때는 또 다른 추론법인 베이즈(Bayesian inference) 추정을 활용!
분석 검정법
A와 B는 관계가 있는가?
- 교차 분석(카이제곱 검정): 두 변수가 모두 범주형 변수일 때 관련성 검정(거주 지역에 따라 여가 생활 달라지나?)
- 상관관계분석(Pearson 상관계수): 두 변수가 모두 연속형 변수일 때 관련성 검정(운전사 시력과 자동차 제동거리는 관계 있나?)
- 상관관계 분석(Spearman 순위 상관계수): 두 변수가 모두 연속형 변수일 때 관련성 검정, 표본 30개 이하, 모집단 정규분포 알 수 X일 때
A와 B의 평균은 차이가 있는가?
- T-검정: 한 변수는 범주형, 다른 변수는 연속형 변수/그룹간 평균의 차이 검정하는 방법/판단 그룹 2개일 때만 사용(미혼자/기혼자 삶에 대한 만족도는 차이가 있는가?)
- 분산분석(ANOVA): 한 변수는 범주형, 다른 변수는 연속형 변수/그룹간 평균 차이를 검정하는 방법/판단해야 하는 그룹 2개 이상(학원을 0개, 1개, 2개 다니는 3그룹의 학생들 간에 성적 차이가 있는가?)
A는 B에 영향을 미치는가?
- 단순 선형 회귀분석: 독립변수와 종속변수 모두 연속형/독립변수->종속변수 예측/독립변수 1개일 때 사용(미세먼지 농도에 따라 호흡기 질환자가 변하는가?)
- 다중 회귀분석: 독립, 종속 모두 연속형/독립변수 2개 이상일 때 사용(지하철 역과의 거리, 초등학교 통학 거리, 대형마트와의 거리가 아파트 시세에 영향을 끼치는가?)
근데 오타가 너~~무 많은 책이었다.