|
|
1 변수의 형태 #
- 자료(data)란, 관측치(observation)들의 집합.
- 변수(variable)란, 시간에 따라 변하는 어떤 특성 또는 특정 시점에서 다른 사람이나 물체간에 변하는 어떤 특성을 말한다. (= 변량)
- 질적 변수와 양적 변수
- 질적 변수
- 특성상 수치로 나타내거나 또는 수치로 나타낼 수 없는 변수
- 성별, 종교, 직업 등
- 질적 변수에 대한 측정자료를 질적 자료, 정성적 자료 또는 범주적 자료(categorical data)라고 함
- 명목, 서열 자료가 포함됨.
- 언제나 이산적 자료
- 양적 변수
- 특성상 수치로 나타낼 수 있는 변수
- 예금잔액, 자녀수, 체중 등
- 양적 변수에 대한 측정자료를 양적 자료 또는 정량적 자료라고 함
- 양적 변수의 분류
- 연속적 변수(continuous variable)
- 이산적 변수(discrete variable) -> 값 사이에 Gap을 갖게 됨
- 구간자료, 비율자료가 포함됨
- 단변수와 다변수
- 관측 대상이 되는 각 기본단위가 하나의 변수를 갖는 자료. 변수가 하나이기 때문에 자료의 대표치, 기본단위들의 동질성, 이상치(oulier)의 존재여부 등에 관한 특성을 요약하는 통계분석 방법이 사용됨.
- 관측 대상이 되는 각 기본단위가 여러개의 변수를 갖는 자료. 변수가 두 개 이상이므로 단변수 자료에서 얻는 특성 이외에 변수간의 관계, 변수간의 밀접성, 한 변수로부터 다른 변수의 값 예측 등의 밝히는 통계분석방법이 사용됨.
예제(속성들이 좀 꾸졌지만.. 그려려니..)
종업원 | 인종 | 성 | 직위 | 근무연수 | 연봉 |
홍길동 | 황 | 남 | 과장 | 5 | 6 |
장길산 | 황 | 남 | 대리 | 3 | 3 |
개소문 | 황 | 남 | 부장 | 7 | 5 |
스탈린 | 백 | 남 | 대리 | 2 | 1 |
마돈나 | 백 | 여 | 과장 | 6 | 3 |
- 기본단위는? 홍길동, 장길산, 개소문, 스탈린, 마돈나
- 변수는? 종업원, 인종, 성, 직위, 근무연수, 연봉
- 질적? 양적?
- 질적변수: 인종, 성, 직위
- 양적변수: 근무연수, 연봉 (모두 연속적)
- 직위의 모집단? 부장, 과장, 대리
- 자료의 수는? 25
- 다변량 자료
2 측정척도의 형태 #
4가지 형태
- 명목척도(nominal scale)
- 값은 범주(category) 또는 레이블(label)
- 성별, 이메인인증여부, 직위 등
- '=' 또는 '<>'만 가지고 비교 가능
- 서열척도(ordinal scale)
- 값은 측정 대상간의 높/낮, 큼/작음, 선/후 등의 서열 순서를 가짐
- 학점, 단위(KB, MB, TB, PB..) 등
- '=', '<>', '>=', '<=' 연산 가능
- 구간척도(interval scale)
- 값들이 일정한 차이만큼 일정한 크기를 가진다.(명목, 서열 자료의 특성을 가짐)
- 온도, 지능지수, 학년 등
- "주의" 자료들간의 차이(간격)가 의미 있을 뿐이지 차이의 비율은 의미가 없다. (온도가 서울 15도, 부산 30도 라고 해도 부산이 2배더 덥다고 할 수 없다) -> 상대적인 위치만 나타낼 뿐
- '=', '<>', '>=', '<=', '+', '-' 연산 가능
- 비율척도(ratio scale)
- 명목, 서열, 구간 자료의 모든 특성을 가질 뿐만 아니라 절대적 위치를 나타내는 원점(0)을 가지기 때문에 두 측정치 사이의 비율을 계산할 수 있다.
- A의 월급이 100원이고, B의 월급이 200원이면 B의 월급이 A보다 2배더 많다고 이야기 할 수 있다.
- * '=', '<>', '>=', '<=', '+', '-', '/', '*' 연산 가능
시계열자료와 횡단면자료
- 시계열자료(time series data), 시간의 순서대로 기록
- 횡단면자료(cross sectional data), 특정 시점에 측정하여 기록
3 통계표와 그래프 #
도수분포표
- 자료를 한 변수가 가질 수 있는 값들의 계급 또는 범주로 나누고 각 계급에 속하는 측정치의 도수를 나타내는 통계표
- 도수(freqeuncy), 각 계급에 해당되는 값의 개수
- 상대도수(relative freqeuncy), 각 계급에 속한 도수가 총도수에서 차지하는 비율
학년데이터
학년 | 도수 | 상대도수 |
1학년 | 1 | 0.1 |
2학년 | 4 | 0.4 |
3학년 | 3 | 0.3 |
4학년 | 2 | 0.2 |
총도수 | 10 | 1.0 |
4 도수분포표(히스토그램) #
어떤 데이터가 전체 중에 차지하는 위치를 알아내기 위해서는 전체 경향을 파악하는 일이 매우 중요하다. 전체 경향을 파악하는데는 도수분포표가 매우 유용하다. 도수분포표는 다음과 같은 방법으로 만들 수 있다.
- 데이터의 최대, 최소값을 구한다.
- 자료의 크기에 따라 적당한 계급의 수를 정한다.(이상치는 제거한다.(이상치 제거 방법))
- 중복되지 않게 계급의 크기를 정한다.
- 각 계급에 속하는 도수(데이터 수)를 구한다.
- 계급은 연속으로 표시한다.
- 상대도수를 구한다. (상대도수 = 해당 계급의 도수 / 전체 도수)
참고:
엑셀2007에서 막대 그래프와 꺽은선 그래프를 동시에 표현하고자 한다면, 우선 2개의 계열을 모두 막대 그래프로 표시한 후, 마우스 오른 클릭하여 다음 그림과 같이 [계열 차트 종류 변경] 을 클릭하여 꺽은선 그래프로 변경한다.
다음의 변경된 그림이다.
5 스튜아지스 방법 #
스튜아지스의 방법은 통계학 책의 거의 처음 부분에 나오는 내용이다. 스튜아지스는 계급의 수를 결정하는 방법으로 다음과 같은 공식을 만들었다. 히스토그램을 만들때 유용하다.
- 계급의 수 k = 1 + (log10N / log102) (N; 자료의 수) = 1 + (LOG10(N) / LOG10(2))
- 계급의 범위 R = (Max값 - Min값) / k
분류하는 방법은 위의 공식을 이용하여 다음과 같은 순서로 구하면 된다.
- 데이터의 총 개수, Max값, Min값을 구한다. 이 때 Max값, Min값을 구할 때는 이상치를 제거하는 것이 좋다.
- 스튜아지스의 방법을 이용하여 계급의 수(k)를 구한다.
- 윗 단계에서 구해진 계급의 수 k를 이용하여 값의 범위를 구한다.
- 구해진 범위로 데이터를 구분한다.
|