DataBaser.Net: 기술통계학I - 표와 그래프적 방법

1 변수의 형태
2 측정척도의 형태
3 통계표와 그래프
4 도수분포표(히스토그램)
5 스튜아지스 방법

1 변수의 형태 #

자료(data)란, 관측치(observation)들의 집합.
변수(variable)란, 시간에 따라 변하는 어떤 특성 또는 특정 시점에서 다른 사람이나 물체간에 변하는 어떤 특성을 말한다. (= 변량)
질적 변수와 양적 변수
- 질적 변수
  - 특성상 수치로 나타내거나 또는 수치로 나타낼 수 없는 변수
  - 성별, 종교, 직업 등
  - 질적 변수에 대한 측정자료를 질적 자료, 정성적 자료 또는 범주적 자료(categorical data)라고 함
  - 명목, 서열 자료가 포함됨.
  - 언제나 이산적 자료
- 양적 변수
  - 특성상 수치로 나타낼 수 있는 변수
  - 예금잔액, 자녀수, 체중 등
  - 양적 변수에 대한 측정자료를 양적 자료 또는 정량적 자료라고 함
  - 양적 변수의 분류
    - 연속적 변수(continuous variable)
    - 이산적 변수(discrete variable) -> 값 사이에 Gap을 갖게 됨
  - 구간자료, 비율자료가 포함됨
단변수와 다변수
- 관측 대상이 되는 각 기본단위가 하나의 변수를 갖는 자료. 변수가 하나이기 때문에 자료의 대표치, 기본단위들의 동질성, 이상치(oulier)의 존재여부 등에 관한 특성을 요약하는 통계분석 방법이 사용됨.
- 관측 대상이 되는 각 기본단위가 여러개의 변수를 갖는 자료. 변수가 두 개 이상이므로 단변수 자료에서 얻는 특성 이외에 변수간의 관계, 변수간의 밀접성, 한 변수로부터 다른 변수의 값 예측 등의 밝히는 통계분석방법이 사용됨.

예제(속성들이 좀 꾸졌지만.. 그려려니..)

종업원	인종	성	직위	근무연수	연봉
홍길동	황	남	과장	5	6
장길산	황	남	대리	3	3
개소문	황	남	부장	7	5
스탈린	백	남	대리	2	1
마돈나	백	여	과장	6	3

기본단위는? 홍길동, 장길산, 개소문, 스탈린, 마돈나
변수는? 종업원, 인종, 성, 직위, 근무연수, 연봉
질적? 양적?
- 질적변수: 인종, 성, 직위
- 양적변수: 근무연수, 연봉 (모두 연속적)
직위의 모집단? 부장, 과장, 대리
자료의 수는? 25
다변량 자료

[edit]

2 측정척도의 형태 #

4가지 형태

명목척도(nominal scale)
- 값은 범주(category) 또는 레이블(label)
- 성별, 이메인인증여부, 직위 등
- '=' 또는 '<>'만 가지고 비교 가능
서열척도(ordinal scale)
- 값은 측정 대상간의 높/낮, 큼/작음, 선/후 등의 서열 순서를 가짐
- 학점, 단위(KB, MB, TB, PB..) 등
- '=', '<>', '>=', '<=' 연산 가능
구간척도(interval scale)
- 값들이 일정한 차이만큼 일정한 크기를 가진다.(명목, 서열 자료의 특성을 가짐)
- 온도, 지능지수, 학년 등
- "주의" 자료들간의 차이(간격)가 의미 있을 뿐이지 차이의 비율은 의미가 없다. (온도가 서울 15도, 부산 30도 라고 해도 부산이 2배더 덥다고 할 수 없다) -> 상대적인 위치만 나타낼 뿐
- '=', '<>', '>=', '<=', '+', '-' 연산 가능
비율척도(ratio scale)
- 명목, 서열, 구간 자료의 모든 특성을 가질 뿐만 아니라 절대적 위치를 나타내는 원점(0)을 가지기 때문에 두 측정치 사이의 비율을 계산할 수 있다.
- A의 월급이 100원이고, B의 월급이 200원이면 B의 월급이 A보다 2배더 많다고 이야기 할 수 있다.
- * '=', '<>', '>=', '<=', '+', '-', '/', '*' 연산 가능