내머리를 가득히

[펌] 통계분석

wandol 2010. 3. 11. 16:33


 

1. 교차분석

기 존의 빈도분석은 하나의 변수에 대한 빈도와 비율을 알 수 있을 뿐이었으나, 교차분석은 두 개의 변수를 동시에 교차하는 교차표로 만들어 각각에 해당하는 빈도와 비율에 대한 경우의 수까지 모두 구할 수 있다. 이는 독립변수와 종속변수가 모두 명목, 서열척도인 경우에 사용하는 것이 일반적이다. 비교대상인 종속변수가 등간, 비율척도인 경우에는 집단별 평균분석을 사용하고, 평균을 구할 수 없는 척도인 명목, 서열척도인 경우 교차분석을 사용하는 것이 좋다.

 

독립변수의 척도

종속변수의 척도

분석방법

비연속(비계량)

비연속(비계량)

카이제곱분석

비연속(비계량)

연속(계량)

분산분석

연속(계량)

비연속(비계량)

판별분석, 로짓분석

연속(계량)

연속(계량)

회귀분석

 

 

2. 카이제곱

**단일표본 카이제곱검정: 3개 이상의 질적 범주로 구성되어 있는 명목변수에 있어서 각 범주의 관찰빈도와 영가설에 의한 기대빈도 사이에 의미 있는 차이가 있는가를 검정하는 적합성 검정방법의 하나이다.

**두 독립표본의 카이제곱검정: 주어진 자료가 명목변수인 비연속적 범주로 구성되어 있을 경우 두 독립표본간의 분포차이의 유의도를 검정할 때 사용하는 비모수적 추리통계방법이다.

 

**카이 제곱의 값은 실제빈도-기대빈도의 제곱을 기대빈도로 나눈 값

*기대빈도

기대빈도=(행의 합계)☓(열의합계) 나누기 전체합계

독립집단 간 종속변수의 분포차이가 없다는 영가설이 발생할 경우에 기대되는 빈도.

기대빈도대로 교차분석의 결과가 나왔다면 독립변수와 종속변수의 차이가 없다는 영가설이 채택된다.

 

**카이제곱은 모형의 적합도를 검정하는데 사용되고, 적합도 검정은 표본에서 관찰된 관찰도수와 이론적 모형에 근거한 기대도수를 비교하여 표본이 추출된 모집단의 분포에 대한 추론을 행하는 것이다.

 

**카이제곱은 분포의 차이가 독립적인지 아닌지를 검정한다. 따라서 각 변수들의 상관성을 충분히 포함한다고 할 수 없다.

 

**단순 빈도를 확인하는 방법으로 각 변수를 명목변수로 하여 각 변수의 빈도를 확인하는 방법이다.

 

** 카이제곱의 값이 크게 나오면 집단 간의 차이가 의미가 있는 것으로 되어 영가설을 기각하게 된다. 반대로 카이제곱의 값이 작게 나오면 영가설을 인정하게 된다. 카이제곱의 값과 자유도를 통하여 영가설을 기각할 것인지 수용할 것인지 결정한다.

 

**오류

*1종 오류: 영가설이 참이나 이를 기각할 경우

*2종 오류: 영가설이 거짓이나 이를 채택할 경우

**검정력: 대립가설이 사실일 때, 귀무가설을 기각하고 대립가설을 채택하게 될 확률

 

3. T-TEST(티검정)

표집분포가 정상분포를 이루고 있지 않을 경우 소표본 이론에 기초한 T분포를 기반으로 하여 모수치의 추정과 가설을 검정하는 방법이 T검정이다. 또한 T검정은 표본 평균값의 모수치와의 유의도 검정에도 사용할 수 있는데, 이는 표본의 평균값의 차이가 모수치에서도 나타나는 차이에 의한 것인지, 아니면 표본에서 발생한 우연한 차이에 의한 것인지를 검정할 수 있다. 또한 두 독립표본 또는 독립집단의 평균비교 등에 사용할 수 있다.

*2개의 표본집단을 비교할 경우 T검증을 사용하며, 3개 이상의 표본집단을 분석할 경우 분산분석법(ANOVA), F검정을 사용한다.

*T테스트를 하는 목적으로는 독립된 두 개의 표본 평균간의 차이를 검정하거나 두 집단간의 평균이 통계적으로 유의한 차이가 있는 가를 검정하는 것이다.

 

**대응비교에 대한 T검정

대 응비교란 실험단위를 동질적인 쌍에서 임의로 선택하여 한 실험단위에 대해서는 처리방법 1을 적용시키고 나머지 실험집단에는 처리방법 2를 적용시켜서 각 쌍에서 관측치를 이용하여 두 평균 훈련효과, 정책효과 등 처리효과를 분석하고자 하는 경우에는 처리 전․후의 자료를 묶어 그 차이가 의미가 있는지를 분석해야 한다. 즉, 일한 관측대상에 독립변수를 달리 했을 경우 나타나는 평균의 차이를 비교하는 것이다.

 

*두 집단의 평균차이가 클수록, 두 집단의 표준편차가 작을수록 T값은 커지게 된다.

 

*T검정에서 자유도=(n1+n2-2)

 

사회통계학

 

1. 자료의 정리

**자료의 종류

*질적자료: 원칙적으로 숫자로 표시될 수 없는 자료를 말하며, 범주형자료라고도 한다. 명목척도, 서열척도로 구성된다.

*양적자료: 자료자체가 숫자로 표현되어 있으며, 질적자료와 달리 자료의 속성을 그대로 반영한다. 등간척도와 비율척도로 구성된다.

 

2. 기술통계량

**기술통계량의 종류

*대표값: 평균값, 중앙치, 최빈치

①산술평균

②기하평균: 변화율이나 비율의 평균을 구할 때 이용하는 수치로 모든 측정치를 곱하여 측정치의 수만큼 제곱근을 구한 것이다. 변화의 대표치 특히 물가상승율, 경제성장율 등 시계열 분석에 유리하게 사용될 수 있다.

③조화평균: 동일한 거리를 반복해서 주행한 후 평균속도를 계산할 때 자주 사용된다. 시간에 따라 변하는 변량, 속도, 상품의 시세 등의 단위당 평균을 산출하는데 이용된다.

*시간의 변화에 따라 변하는 값의 평균은 조화평균을 이용하고, 어떤 비율로 증가하거나 감소하는 자료의 평균은 기하평균을 이용한다.

④평방평균: 변량에 대한 분산과 표준편차 등에 사용되는 추상적 대표값이다. 측정값들의 제곱을 평균하여 그 제곱근으로 계산되는 대표값이다.

⑤중앙치: 모든 관측치를 크기 순서대로 나열했을 때 중앙에 있는 관측치의 값을 말한다. 극단적인 값에 영향을 받지 않기 때문에 산술평균보다 더 좋은 대표값이 될 수 있다.

⑥최빈치: 주어진 자료에서 가장 자주 나타나고 있는 관측치를 말한다.

 

**산술평균(X)과 기하평균(G), 조화평균(H)의 관계

X>=G>=H

**산술평균(X)과 중위수(Me), 최빈치(Mo)의 관계

*좌우대칭 분포일 경우

X = Me = Mo

*좌경대칭 분포일 경우

X < Me < Mo

*우경대칭 분포일 경우

Mo < Me < X

 

 

*산포도: 자료가 대푯값으로부터 얼마나 흩어져 분포하고 있는가를 나타내는 것으로 분산, 표준편차, 범위, 사분위편차, 평균편차, 표준오차, 변이계수 등이 있다.

①범위: 관측치들 중에서 최대치와 최소치간의 차이로 계산된다.

② 사분위 편차: 사분위간 범위에 대한 평균이다. 자료를 오름차순으로 정렬 후 4등분하여 각각 1사분위수, 2사분위수, 3사분위수라고 한다. 범위처럼 극단적인 값이 있어도 영향을 받지 않는 장점이 있지만 모든 관측치의 값이 반영되지 않는 결점이 있다.

③표준오차: 표본평균의 표준 편차이다. 표준편차/ 샘플수의 제곱근으로 구한다.

④평균편차: 관찰치와 산술평균의 차이들의 평균이다.

⑤분산: 자료의 흩어진 정도에 대한 척도로서 가장 널리 사용되는 것으로 표본의 각 관측치에서 표본평균을 뺀 것을 편차라고 하는데 이 편차는 각 관측치가 평균으로부터 얼마나 떨어져 분포해 있는가를 나타낸다.

⑥표준편차: 분산의 제곱근으로 대상의 분포가 어떻게 이뤄졌는가를 확인할 수 있다. 표준편차가 크면 대상 분포가 넓게 분포되었고, 표준편차가 작으면 대상 분포가 적게 분포되어 있다.

⑦변이계수: 표준편차를 평균값으로 나눈 값이다. 표준편차의 산술평균에 대한 상대적 크기를 나타내는 측도로 두 종류의 자료의 산포도를 비교할 때와 두 종류의 값의 차이가 클 때 이용된다.

 

*비대칭도

① 왜도: 분포의 비대칭정도, 즉 분포가 기울어진 방향과 정도를 나타내는 양이다. 오른쪽으로 길게 뻗어 있으면 우측왜도 또는 양의 왜도라고 하고, 그 반대의 경우는 좌측왜도 또는 음의 왜도라고 한다. 자료의 분포가 좌우대칭인 경우 왜도는 0이며, 오른쪽 꼬리를 가지는 분포는 0보다 크며, 왼쪽 꼬리를 가진 분포는 0보다 작다고 할 수 있다.

② 첨도: 분포도가 얼마나 중심에서 집중되어 있는가, 즉 분포의 중심이 얼마나 뾰족한가를 측정하는 것으로 첨도는 정규분포를 기준으로 해서 3의 값을 가진다는 것이 증명되었다. 정규분포 보다 높은 봉우리를 가지면 첨도는 3보다 큰 값을 가지며, 정규분포 보다 낮은 봉우리를 가지면 3보다 작은 값을 가진다.

 

3. 추정

**표본평균의 분포

*표본평균분포: 어떤 모집단에서 동일한 크기로 가능한 모든 표본들을 뽑아서 그 표본들의 평균을 계산하였을 때 그 평균들의 확률분포

*모집단의 분포와 표본평균의 분포 모양

모집단이 정규분포일 때: 모집단이 정규분포일 때 표본평균의 분포 역시 정규분포를 이룬다.

모집단이 정규분포가 아닐 때: 모집단이 정규분포가 아니더라도 표본의 크기 n이 커지면 커질수록(n>=30) 표본평균의 분포는 원래 모집단의 분포에 상관없이 정규분포에 가까워진다. 이것을 중심 극한정리라고 한다.

 

대수의 법칙: 표본의 크기가 커질수록 모집단의 평균에 가까워진다.

 

**점추정

*통계적 추정: 표본의 특성을 나타내는 수치인 통계량을 기초로 하여 모집단의 특성인 모수를 추측하는 통계적 분석방법이다.

 

*통계적 추정의 종류

①점추정: 모수를 단일치로 추측하는 방법을 그 신뢰도를 나타낼 수 없다는 단점이 있다.

②구간추정: 모수를 포함하리라고 추측되는 구간을 구하는 방법으로 모수의 추정치와 신뢰도를 구할 수 있다.

 

*추정량의 결정기준

① 불편성: 추정량의 값이 평균적으로 모수와 일치한다는 것이다. 추정량의 기대치가 추정할 모수의 실제값과 같을 때, 이 추정량은 불편성을 가졌다고 할 수 있다. 평균은 모집단의 모평균과 일치하므로 표본평균은 모평균을 추정하는 불편추정량이 된다.

편의: 추정량의 기대치와 모수와의 차이

②효율성: 표본에서 계산된 추정량은 모집단의 모수에 근접하여야 하는데 이렇게 되기 위해서는 모수를 기준으로 하여 추정량의 분산이 작아야 한다.

③일치성: 표본의 크기가 크면 클수록 추정량이 모수에 일치하게 되는 추정량을 일치추정량이라고 한다.

④충족성: 모수에 대하여 모든 정보를 제공한다고 하면 그 추정량을 충족추정량이라고 한다.

 

불편최소분산 추정치: 불편성과 효율성을 모두 지닌 추정치이다. 표준오차가 작아져 표본추정치의 분포가 모집단 모수치와 일정할 때뿐만 아니라 어떤 다른 추정치보다 분산이 작은 추정치를 말한다.

 

**구간추정

*신뢰도와 신뢰구간

신뢰도: 모집단 평균이 포함될 신뢰구간

오차율(∂): 신뢰구간 내에 모집단 평균이 포함되지 않을 확률

신뢰도=1-∂ ∂=1-신뢰도

신뢰도(1-∂)

Z

0.90(90%)

1.64

0.95(95%)

1.96

0.99(99%)

2.57

신뢰구간: 표준오차를 고려하여 모집단 평균이 포함될 확률 구간

 

*신뢰구간추정: 표준오차를 고려하여 모집단 평균 u가 포함될 확률구간인 신뢰구간을 설정함으로써 모집단 평균을 추정하는 방법

 

**t-분포표

표본의 수가 30개미만의 소표본일 경우 사용되는 것으로 행은 자유도를 열은 오차율로 나타낸다.

t-분포는 자유도에 따라 변하며 자유도가 작아질수록 평평한 정도가 커지고 옆쪽으로 벌어지며 자유도가 커질수록 정규분포에 가까워지고 이는 대칭곡선을 이룬다.

곡선의 형태는 30이하 일 때 Z분포보다 평평한 모양이며 전체면적은 1이다. 평균은 0이며, 표준편차는 1이다. 평균을 중심으로 종모양인 좌우대칭형의 분포이다.

정규분포를 하는 모집단에 대해서 표준편차를 모르는 상황에서 모평균을 추정 및 검정하고자 할 때에 이용되는 확률분포로 사용된다.

 

 

5. 가설검정

 

가설은 아직 경험적으로 검증되지 않은 일종의 예비이론으로서 둘 혹은 그 이상의 변인들 간의 추측적 진수이다. 이는 명료하여야 하고, 가치중립적이어야 하며, 특정화 되어 있어야 하고 경험적으로 검정 가능한 것이어야 한다.

 

**가설검정의 정의

통계학에서 이론치와의 차이가 확률적인 오차의 범위를 넘어 오류라고 판단되어질 때 가설을 기각한다라고 한다. 가설을 기각 혹은 채택하는 판단기준이 되는 것을 유의수준이라고 한다.

 

**귀무가설과 대립가설

*귀무가설: 모집단의 모수에 대해서 어떤 조건을 가정하여 가설을 설정하는 것으로 H0로 표현한다.

*대립가설: 귀무가설과 반대되는 것으로 H1로 표현한다.

귀무가설은 ‘아무런 차이가 없다’ 또는 ‘전혀 효과가 없다’는 내용을 의미하는 주장이고 대립가설은 ‘차이가 있다’ 또는 ‘효과가 있다’는 귀무가설의 반대개념이다.

 

**가설검증의 오류

표본통계량에 의한 의사결정

모집단의 특성

귀무가설의 주장이 옳음

(H0이 참일 때)

귀무가설의 주장이 틀림

(H1이 참일 때)

귀무가설의 수용

올바른 결정

제 2종 오류(β오류)

귀무가설의 기각

제 1종 오류(α오류)

올바른 결정

 

*가설검정의 검정력: 귀무가설의 주장이 틀릴 때 귀무가설을 기각하는 확률(1-β)로 새로운 주장인 대립가설이 사실일 때 이를 인정하게 하는 확률이다.

*일반적으로 검정을 할 때는 1종 오류가 일어날 확률을 어느 수준 α이하로 고정하고 그 다음 2종 오류가 일어날 확률을 될 수 있는 한 작게 하는 방법을 취한다.

 

**유의수준과 임계치

* 유의수준: 1종 오류를 범할 확률을 그 검증의 유의수준이라고 하며 α로 표현한다. 표본의 특성에 따라 나타날 확률의 범위를 말하며 유의수준을 감소시키면 2종 오류는 커진다. 유의수준을 낮게 잡으면 1종 오류가 작아져 귀무가설이 옳은데도 기각할 확률이 낮아지나 동시에 2종 오류의 가능성을 크게 한다.

*임계치: 주어진 유의수준에서 귀무가설의 채택과 기각에 관한 의사결정을 할 경우 그 기준이 되는 점으로 기각치라고도 한다.

*기각역: 귀무가설을 기각시키는 검정통계량의 관측값의 영역이다

*채택역: 기각역이 아닌 영역

 

**양측검정과 단측검정

*양측검정: 집단 간의 차이가 있느냐 없느냐에 관심을 두는 것, ≠으로 표현하는 것으로 모평균이 어느 가정치와 동일한지 아닌지를 조사할 경우 사용된다.

*단측검정: 집단 간에 ‘어느 한쪽이 더 높으냐 낮으냐’에 관심을 두는 것, ><으로 표현하는 것으로 모평균의 크기가 이론적 경험적으로 얼마 이상 혹은 얼마 이하로 예상될 경우 사용한다.

양측검정을 할 것인지 혹은 단측검정을 할 것인지는 모분산의 크기가 예측될 수 있는지(단측검정) 모분산의 크기가 예측될 수 없는지(양측검정)에 달려있다.

 

**가설검증의 순서

귀무가설, 대립가설과 그에 따른 의사결정대안을 설정한다.

유의수준 α를 선택하고 기각영역을 설정한다.

표본통계치를 구한다

표본 통계치를 이용하여 가설을 검정하고 최선의 대안을 선택한다.

 

6장 표본의 크기

**표본의 대표성

표본에서 나온 결과들이 모집단의 속성을 얼마만큼 정확하게 반영해 주느냐 하는 것을 대표성이라고 한다. 표본의 크기가 클수록 표집오차는 적어지며, 표본의 크기가 작을수록 표집오차는 증가한다.

 

**표본크기의 고려사항

표집의 동질성 정도, 표집방법과 절차, 비용 시간 및 인력의 한계, 카테고리의 수, 정확성

 

**신뢰구간의 폭을 결정하는 요인은 신뢰도와 표본의 크기이다. 그러나 신뢰도가 일정할 경우에는 신뢰구간의 폭은 표본크기에 달려 있다.

사회통계1.hwp

 

사회통계2.hwp

 

자유도.hwp