[Data Science] Statistical Data Analysis

Descriptive Statistics는 데이터를 의미 있는 방식으로 요약하거나 특성화하는 작업을 의미한다.

연속적이고 대칭적이며 이상치 없이 잘 정의된 데이터(대충 정규분포 따르는..) 를 설명할 때 사용함.

Distribution은 관측값이 가능한 값의 범위에 어떻게 퍼져있는지, 특정 값이나 범위가 관측되는 빈도를 통해 데이터를 설명한다.

Mean, Median, Mode, Range, Variance, Standard Deviation 등 기초 통계량은 패스

IQR은 데이터의 중간 50%가 차지하는 범위로, 3사분위수에서 1사분위수를 뺀 값을 의미한다. (Q3 - Q1)

Skewness는 분포의 비대칭 정도를 의미하고, Kurtosis는 분포가 얼마나 뾰족한지를 의미한다. (정규분포의 첨도는 0)

Quartiles는 전체 데이터를 정렬했을 때 4개의 동일한 영역으로 나누는 지점을 의미한다. (분포와 변동성 파악에 중요)

Q1은 하위 25% Q2는 중앙값과 일치 Q3은 상위 25%

Boxplot을 그릴 때 핵심적인 기준이 된다.

상한선 Whiskers 는 Q3 + (1.5 * IQR) 로 표현되고, 하한선 Whiskers는 Q1 - (1.5 * IQR) 로 표현된다.

이 범위를 벗어나는 데이터는 Outliers로 간주.

데이터과학은 보통 세 가지 역량의 교집합으로 정의된다. (프로그래밍 기술 / 수학 및 통계 지식 / 도메인 전문성)

Dnager Zone은 도메인 지식과 프로그래밍 기술은 충분하지만 수학 및 통계 지식이 빠진 지점을 의미한다.

그냥 라이브러리 가져와서 데이터 집어넣고 결과 뽑아내는거는 잘 할 수 있지만, 그 결과가 통계적으로 왜 그렇게 나오는지, 모델의 가정이 깨지는 경우 어떤 문제가 생기는지는 알 수 없다.

도메인 지식도 갖추고 있으니 분석 결과에 따라 자신의 지식을 끼워맞춰서 스토리텔링을 할 수 있지만 -_-

통계적 근거가 부실하기에 노이즈를 패턴으로 오해하거나 잘못된 인과관계를 전파할 가능성이 매우 크다.

Pearson Correlation을 아무 데이터에서나 사용할 수 있는게 아니다.

아래 몇 가지 조건을 충족할 때 Pearson Correlation을 사용할 수 있다.

1. 변수는 Interval이거나 Ratio Level중 하나여야 한다. Interval은 기온처럼 0이 의미를 가지는 값을 의미한다. 그냥 의미 없는 값으로 0 박아놓으면 안된다.

2. 두 변수가 Linear Relationship을 가져야 한다. 이차함수 형태라면 Pearson Correlation 값이 왜곡된다.

3. 두 변수 모두 정규분포를 따라야 한다. 히스토그램을 그려보거나 Shapiro-Wilk 검정 테스트를 수행하자.

4. 단 하나의 이상치가 상관계수를 완전히 망칠 수 있으니 이상치를 모두 제거해야 한다.

5. 각 데이터 관측치들은 서로 영향을 주지 않는 독립적인 상태를 유지해야 한다.

공분산도 Correlation과 유사하다. 애초에 Correlation은 공분산의 단위 문제를 해결하기 위해 나온거니까..

그냥 공분산을 -1 ~ 1 사이로 표준화 한 결과가 상관계수이다.

Mean, Standard Deviation, Correlation 까지 같은 4개의 데이터셋이지만, Scatter Plot을 그려보면 뭔가 다 다르다.

그러니 통계를 요약하기 전에 반드시 데이터를 시각화해서 눈으로 확인하는 과정을 거쳐야 Danger Zone에 빠지지 않는다.

우선, 통계학은 내가 알고 싶은 대상이 뭔지를 먼저 정하는 것부터 시작된다.

Population은 연구의 대상이 되는 전체 집단을 의미한다.

Census는 모집단에 속한 모든 개체를 하나하나 다 조사하는 것으로, 정확하지만 비용이 굉장히 많이 든다.

Sample은 모집단의 일부를 추출해서 표본을 통해 모집단이 어떨지 추론할 수 있다.

어쩔 수 없이 Sampling을 하는데 여기서 항상 Bias가 생긴다.

Selection Bias : 특정 그룹을 체계적으로 배제하거나 선호할 때 발생한다.

Response Bias : 설문 질문이 잘못 설계되어 답변을 유도하거나 응답자가 거짓을 말할 때 발생한다.

Non-Response Bias : 애초에 설문에 응답을 안하면 샘플링 크기가 의미가 없음;

그러니 샘플 크기보다 샘플링 방법이 훨씬~~ 더 중요하다.

그럼 어떻게 샘플링 해야 할까?

1. Simple Random Sample (SRS)

모든 구성원이 선택될 확률이 동일하고, 모든 가능한 조합이 뽑힐 확률도 같은 방식이다.

개별 학생이 뽑히는 확률도 같아야 하고, 모든 쌍 모든 세 명의 조합이 뽑힐 확률도 다른 조합과 정확히 같아야 한다.

10명 단위로 뽑는다고 하면, 3번 4번 학생이 동시에 한 샘플에 들어갈 확률은 0이니 SRS가 아니다.

2. Stratified Random Sampling - 층화 추출법

모집단을 겹치지 않는 여러 층으로 나누고 각 층의 크기에 비례해서 무작위로 추출한다.

관심 있는 그룹의 비율을 보장할 수 있고, 우연에 의한 오류를 줄일 수 있다.

여기서 층은 모집단을 선택한 특성에 따라 비중복 그룹으로 나눈 결과를 의미하고, 각 층의 크기에 비례하도록 샘플 크기를 결정해 각 층 내부에서 SRS를 실시한다.

3. Post-Stratification - 사후 층화

표본을 뽑았는데 모집단의 비율과 일치하지 않는 경우 가중치를 부여해 결과를 보정한다.

추론 통계에서 정보를 얻는 방식은 크게 두 가지로 나뉜다.

Inferential Statistics 는 Sample로부터 Population의 정보를 얻는 과정을 의미한다.

1. Point Estimation

모집단의 파라미터를 하나의 숫자로 찍어서 추정하는 방식이다.

표본을 보니까 학교 학생의 평균 키는 174.3 겠구나. 라고 예측하는 것

2. Interval Estimation

파라미터가 있을 것으로 예상되는 Interval을 추정하는 방식으로, 특정 신뢰 수준도 함께 제시된다.

평균 키가 173 ~ 177 사이에 있을 확률이 95% 구나. 라고 예측하는 것

Confidence Interval, Confidence Level은 고등수학에서 다뤘음. 간단하게 짚고 가면..

신뢰구간은 이런 구조를 가진다. Point Estimate ± (Critical Value)(Standard Error)

모평균은 고정된 값이지 확률변수가 아니다. 그러니 이 구간이 모평균을 포함한다고 95% 정도 확신한다~ 라고 표현.

고등수학 통계적 추정에서 모두 다룬 내용이긴 함.

추정에서 계산하려는 값이 정규분포를 따른다고 하기 위해서는 모집단 자체가 정규분포여야 하는데, 그게 아닌 경우 Central Limit Theorem에 의해 표본의 크기가 충분히 크면 표본 평균들의 분포는 정규분포에 가까워진다.

모집단의 표준편차를 알면 Z-분포를 쓰면 된다. 그런데 모평균도 몰라서 추정하고있는데 이걸 알 수가 있나?

모르면 t-분포를 쓴다. 표본 표준편차를 대신 사용하니 추가적인 불확실성을 고려한다. (정규분포보다 tail이 더 두꺼움)

신뢰 수준, 허용 오차, 모집단의 표준편차를 설정하면 필요한 최소 표본 크기를 역으로 구할 수 있다.

아무거나 가져다 쓴다고 다 좋은 추정이 아니다. Unbiased Estimator와 Minimum Variance를 고려해야 한다.

추정의 기댓값이 실제 모집단의 파라미터와 일치할 때 편향되지 않았다고 할 수 있고, 편향되지 않더라도 분산이 작은 추정량이 더 좋은 추정이다.

Hypothesis Test는 관측한 차이가 실제로 의미가 있는지 판정하는 과정을 의미한다.

1. Assumptions : 데이터의 타입, 샘플링 방법, 모집단 분포, 표본 크기가 적절한지 확인한다.

2. Hypothesis : 귀무가설은 기본적으로 효과 없음을 주장하는 상태이다. 관찰된 차이는 샘플링의 변동성 때문이라고 가정함.

3. Test Statistic : 샘플 데이터가 귀무가설과 얼마나 멀리 떨어져 있는지를 수치화한 값.

4. p-value : 귀무가설이 참이라는 전제하에 현재 얻은 통계량보다 더 극단적인 결과가 나올 확률. (작을수록 귀무가설 반대 증거)

5. Conclusion : p-value와 유의 수준을 비교해 귀무가설을 기각할지 결정한다.

Null Hypothesis (귀무가설)과 Alternative Hypothesis (대립가설)은 서로 동시에 참일 수 없고, 두 가설 외에 다른 가능성이 존재할 수 없다.

Alternative Hypothesis는 실제로 입증하고자 하는 가설으로, Null Hypothesis를 기각할 때 채택된다.

Null Hypothesis를 기각하여 Alternative Hypothesis를 입증하는 방식.

가장 기본인 단일 표본 Z 검정은 위와 같이 계산된다.

Test Statistics를 계산하기 위해 이미 표본평균, 모집단의 표준편차를 알고 있다고 하면 Z 검정을 사용할 수 있음.

Z 검정값을 p-value로 전환한다.

p-value는 결국 관측된 Test Statistics의 확률이니.. p-value가 작을수록 귀무가설에 반하는 강한 근거가 된다.

p-value가 0.1 보다 크다면 유의미하지 않다.

0.01 에서 0.05 구간에 들어오면 의미 있는 정보로 취급.

0.01 보다 작다면 매우 강력한 증거로 다뤄진다.

미리 정해둔 유의수준 알파는 귀무가설이 참이지만 잘못 기각할 확률을 의미한다. (보통 0.05 또는 0.01)

p-value가 높다고 해서 귀무가설이 참이라고 하는건 아니기에, score보다는 sample과 귀무가설의 불일치를 보는 값 정도로 생각하자.

p-value가 작다는 건, 귀무가설이 참이라고 가정한 상황에서 관측된 Test Statistic이 이미 극단적이므로 이보다 더 극단적인 케이스가 별로 없다는 뜻.

그러니 값이 작으면 귀무가설과 비교해서 지지하지 않는 값이 되니 귀무가설을 기각할 수 있음.

Z 검정은 평균값을 비교하고, 카이제곱은 빈도를 통해 두 변수가 서로 관련되는지 확인한다.

관측값은 실험에서 나온 값이고, 기댓값은 두 변수가 무관할 때 통계적으로 나왔어야 하는 값이다.

두 값의 차이가 크면 카이제곱 값이 커지고, 카이제곱 값이 커지면 p-value가 작아지고, 두 변수는 서로 관련이 있다고 결론을 내린다.

카이제곱으로 두 변수가 관련있음을 밝혀내더라도 무엇이 원인인지는 알 수 없다. (제3의 변수 가능성)

요약하면...

1. 귀무가설과 대립가설 세우기

2. 유의수준 알파 정하기

3. 통계량 계산 (Z 검정, 카이제곱 등)

4. p-value 계산

5. 귀무가설 및 대립가설 검증

저작자표시 (새창열림)

'Computer Science > Data Science' 카테고리의 다른 글

[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 1 (0)	2026.05.04
[Data Science] Data Preprocessing & Feature Engineering (0)	2026.04.14
[Data Science] Data Acquisition and Visualization (0)	2026.03.28
[Data Science] Decision Tree & Regularization (0)	2026.03.14
[Data Science] Regression & Classification (0)	2026.03.07

[Data Science] Statistical Data Analysis

'Computer Science > Data Science' 카테고리의 다른 글

댓글

이 글 공유하기

티스토리툴바

'Computer Science > Data Science' 카테고리의 다른 글

댓글

이 글 공유하기

다른 글

[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 1

[Data Science] Data Preprocessing & Feature Engineering

[Data Science] Data Acquisition and Visualization

[Data Science] Decision Tree & Regularization

티스토리툴바