_대문 | 방명록 | 최근글 | 홈피소개 | 주인놈
FrontPage › 기술통계학I-표와그래프적방법

Contents

[-]
1 변수의 형태
2 측정척도의 형태
3 통계표와 그래프
4 도수분포표(히스토그램)
5 스튜아지스 방법

[http]EXCEL 활용 현대 통계학, 강금식, 정우석, 박영사를 정리했다.

1 변수의 형태 #

  • 자료(data)란, 관측치(observation)들의 집합.
  • 변수(variable)란, 시간에 따라 변하는 어떤 특성 또는 특정 시점에서 다른 사람이나 물체간에 변하는 어떤 특성을 말한다. (= 변량)
  • 질적 변수와 양적 변수
    • 질적 변수
      • 특성상 수치로 나타내거나 또는 수치로 나타낼 수 없는 변수
      • 성별, 종교, 직업 등
      • 질적 변수에 대한 측정자료를 질적 자료, 정성적 자료 또는 범주적 자료(categorical data)라고 함
      • 명목, 서열 자료가 포함됨.
      • 언제나 이산적 자료
    • 양적 변수
      • 특성상 수치로 나타낼 수 있는 변수
      • 예금잔액, 자녀수, 체중 등
      • 양적 변수에 대한 측정자료를 양적 자료 또는 정량적 자료라고 함
      • 양적 변수의 분류
        • 연속적 변수(continuous variable)
        • 이산적 변수(discrete variable) -> 값 사이에 Gap을 갖게 됨
      • 구간자료, 비율자료가 포함됨
  • 단변수와 다변수
    • 관측 대상이 되는 각 기본단위가 하나의 변수를 갖는 자료. 변수가 하나이기 때문에 자료의 대표치, 기본단위들의 동질성, 이상치(oulier)의 존재여부 등에 관한 특성을 요약하는 통계분석 방법이 사용됨.
    • 관측 대상이 되는 각 기본단위가 여러개의 변수를 갖는 자료. 변수가 두 개 이상이므로 단변수 자료에서 얻는 특성 이외에 변수간의 관계, 변수간의 밀접성, 한 변수로부터 다른 변수의 값 예측 등의 밝히는 통계분석방법이 사용됨.

예제(속성들이 좀 꾸졌지만.. 그려려니..)
종업원인종직위근무연수연봉
홍길동과장56
장길산대리33
개소문부장75
스탈린대리21
마돈나과장63

  • 기본단위는? 홍길동, 장길산, 개소문, 스탈린, 마돈나
  • 변수는? 종업원, 인종, 성, 직위, 근무연수, 연봉
  • 질적? 양적?
    • 질적변수: 인종, 성, 직위
    • 양적변수: 근무연수, 연봉 (모두 연속적)
  • 직위의 모집단? 부장, 과장, 대리
  • 자료의 수는? 25
  • 다변량 자료

2 측정척도의 형태 #

4가지 형태
  • 명목척도(nominal scale)
    • 값은 범주(category) 또는 레이블(label)
    • 성별, 이메인인증여부, 직위 등
    • '=' 또는 '<>'만 가지고 비교 가능
  • 서열척도(ordinal scale)
    • 값은 측정 대상간의 높/낮, 큼/작음, 선/후 등의 서열 순서를 가짐
    • 학점, 단위(KB, MB, TB, PB..) 등
    • '=', '<>', '>=', '<=' 연산 가능
  • 구간척도(interval scale)
    • 값들이 일정한 차이만큼 일정한 크기를 가진다.(명목, 서열 자료의 특성을 가짐)
    • 온도, 지능지수, 학년 등
    • "주의" 자료들간의 차이(간격)가 의미 있을 뿐이지 차이의 비율은 의미가 없다. (온도가 서울 15도, 부산 30도 라고 해도 부산이 2배더 덥다고 할 수 없다) -> 상대적인 위치만 나타낼 뿐
    • '=', '<>', '>=', '<=', '+', '-' 연산 가능
  • 비율척도(ratio scale)
    • 명목, 서열, 구간 자료의 모든 특성을 가질 뿐만 아니라 절대적 위치를 나타내는 원점(0)을 가지기 때문에 두 측정치 사이의 비율을 계산할 수 있다.
    • A의 월급이 100원이고, B의 월급이 200원이면 B의 월급이 A보다 2배더 많다고 이야기 할 수 있다.
    • * '=', '<>', '>=', '<=', '+', '-', '/', '*' 연산 가능
mesurement_scale.jpg

시계열자료와 횡단면자료
  • 시계열자료(time series data), 시간의 순서대로 기록
  • 횡단면자료(cross sectional data), 특정 시점에 측정하여 기록

3 통계표와 그래프 #

도수분포표
  • 자료를 한 변수가 가질 수 있는 값들의 계급 또는 범주로 나누고 각 계급에 속하는 측정치의 도수를 나타내는 통계표
  • 도수(freqeuncy), 각 계급에 해당되는 값의 개수
  • 상대도수(relative freqeuncy), 각 계급에 속한 도수가 총도수에서 차지하는 비율

학년데이터
학년도수상대도수
1학년10.1
2학년40.4
3학년30.3
4학년20.2
총도수101.0

4 도수분포표(히스토그램) #

어떤 데이터가 전체 중에 차지하는 위치를 알아내기 위해서는 전체 경향을 파악하는 일이 매우 중요하다. 전체 경향을 파악하는데는 도수분포표가 매우 유용하다. 도수분포표는 다음과 같은 방법으로 만들 수 있다.

  1. 데이터의 최대, 최소값을 구한다.
  2. 자료의 크기에 따라 적당한 계급의 수를 정한다.(이상치는 제거한다.(이상치 제거 방법))
  3. 중복되지 않게 계급의 크기를 정한다.
  4. 각 계급에 속하는 도수(데이터 수)를 구한다.
  5. 계급은 연속으로 표시한다.
  6. 상대도수를 구한다. (상대도수 = 해당 계급의 도수 / 전체 도수)

참고:
엑셀2007에서 막대 그래프와 꺽은선 그래프를 동시에 표현하고자 한다면, 우선 2개의 계열을 모두 막대 그래프로 표시한 후, 마우스 오른 클릭하여 다음 그림과 같이 [계열 차트 종류 변경] 을 클릭하여 꺽은선 그래프로 변경한다.
excel01.jpg

다음의 변경된 그림이다.
excel02.jpg

5 스튜아지스 방법 #

스튜아지스의 방법은 통계학 책의 거의 처음 부분에 나오는 내용이다. 스튜아지스는 계급의 수[1]를 결정하는 방법으로 다음과 같은 공식을 만들었다. 히스토그램을 만들때 유용하다.

  • 계급의 수 k = 1 + (log10N / log102) (N; 자료의 수) = 1 + (LOG10(N) / LOG10(2))
  • 계급의 범위 R = (Max값 - Min값) / k

분류하는 방법은 위의 공식을 이용하여 다음과 같은 순서로 구하면 된다.

  1. 데이터의 총 개수, Max값, Min값을 구한다. 이 때 Max값, Min값을 구할 때는 이상치를 제거하는 것이 좋다.
  2. 스튜아지스의 방법을 이용하여 계급의 수(k)를 구한다.
  3. 윗 단계에서 구해진 계급의 수 k를 이용하여 값의 범위를 구한다.
  4. 구해진 범위로 데이터를 구분한다.
----
   [1]  몇 개로 쪼갤 것인가

댓글 남기기..
이름: : 오른쪽의 새로고침을 클릭해 주세요. 새로고침
EditText : Print : Mobile : FindPage : DeletePage : LikePages : Powered by MoniWiki : Last modified 2018-04-13 23:12:53

현명한 사람이 되려거든 사리에 맞게 묻고 조심스럽게 듣고 침착하게 대답하라. 그리고 더 할 말이 없으면 침묵하기를 배워라. (라파엘로)