기초 데이터 분석 용어 목록

황제낙엽 2024.10.17 07:08 조회 수 : 54

sitelink1  
sitelink2  

정의 목록

  • 중앙값
      데이터의 중간값을 나타내는 대표적인 위치 통계량
     
  • 분산(variance)
      평균으로부터 얼마나 떨어져있는지 나타내는 수치
     
  • 표본 분산(Sample Variance)
      모든 데이터가 아닌 표본 데이터들의 분산
     
  • 편차
      평균과의 차이 (음수와 양수)
     
  • 표준편차
      분산이 편차 제곱의 합이기 때문에 분산에 루트를 씌워 단위를 맞춘값 (양수)
     
  • 분포(distribution)
      데이터나 확률변수가 어떻게 퍼져 있는지를 나타내는 패턴을 설명
     
  • 확률(probability)
      특정 사건이 발생 할 수 있는 비율로써 0~1 사이의 값이다.
      0, 1을 포함하며 모든 사건의 확률 합은 1이다.
     
  • 확률변수
      특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
     
  • 확률분포
      확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지를 나타내는 패턴
      ex> 이산확률분포, 연속확률분포
     
  • 기댓값(expected value)
      특정 사건이 시행되었을때 확률변수 X가 취할 수 있는 값의 평균값
      관측될 것이라고 기대되는 관측값에 대한 평균
      ex> 이산확률변수의 기댓값, 연속확률변수의 기댓값
     
  • 요약값
      - Summary value: 데이터의 요약된 값을 나타내는 일반적인 표현
      - Summary statistic: 평균, 중앙값, 분산 등과 같이 데이터를 요약하는 통계 값들을 의미
     
  • 첨도(kurtosis)
      확률분포의 뾰족한 정도를 나타내는 측도
     
  • 왜도(skewness)
      확률분포의 비대칭 정도를 나타내는 측도
     
  • 모수(Parameter)
      모집단의 평균, 분산과 같은 수치값으로써 주로 표본을 통해 추정하여 산출
     
  • 표본 평균(Bar, X\overline{X})
      확률변수 X의 평균 또는 표본 평균을 의미하며 엑스 바(X-bar)라고 읽는다
      확률변수의 기댓값은 E(X)\mathbb{E}(X)로 나타내며 기댓값은 확률변수의 평균적인 값이다
      E(X)와 X\overline{X}는 서로 관련이 있지만, 기호 위에 바가 있는 것은 실제 표본으로부터 계산된 평균이고, E(X)\mathbb{E}(X)이론적인 기대값이다
     
  • 공분산(Covariance) - Cov(X,Y)
      공분산(Covariance)은 두 개의 변수가 어떻게 함께 변하는지를 측정하는 통계적 개념
      한 변수가 변할 때 다른 변수가 어떻게 변하는지를 나타내며, 두 변수 간의 선형 관계를 나타냄
     
  • 상관계수(Correlation Coefficient) - Correlation(X,Y)
      공분산은 두 변수 간의 선형 관계의 크기와 방향을 나타내지만, 공분산의 값은 두 변수의 단위에 따라 달라지고 공분산의 크기는 절대적인 의미가 없을 수 있다
      그래서 이를 해결하기 위해 상관계수(Correlation Coefficient)를 사용한다
      상관계수는 공분산을 두 변수의 표준편차로 나눈 값으로, -1과 1 사이의 값으로 정규화되어 두 변수 간의 관계를 보다 직관적으로 이해할 수 있다
     
  • 유의 수준(α)
      귀무가설이 참일 때 이를 잘못 기각할 최대 허용 확률을 의미
     
  • 유의 확률(p-value)
      가설 검정에서 귀무가설이 참이라는 가정하에 현재 데이터에서 관측된 결과가 나올 확률을 의미하며 검정통계량으로부터 얻는 값이다
     
  • 절댓값
  • 제곱근
  • 제곱수
  • 로그
  • 공분산
  • 상관계수
  • 전치행렬
  • 4분위수
  • 정규 분포
  • 표본
  • 확률 값
  • 넓이 값
  • 균일 분포
  • 산점도

 

발음기호 목록

  • X (엑스): 확률 변수
  • P (피): 확률
  • p (피): 성공 확률
  • 1−p (원 마이너스 피): 실패 확률
  • P(X=1)=p : 엑스가 1일 확률은 피
  • P(X=0)=1−p : 엑스가 0일 확률은 원 마이너스 피
  • f(x) (에프 엑스): 확률 밀도 함수
  • σ (시그마): 표준 편차
  • μ (뮤): 표본의 평균
  • xˉ (엑스바): 모집단의 평균
  • π (파이): 원주율 (≈3.14159)
  • e (이): 자연상수 (≈2.71828)
  • k (케이): 사건의 발생 횟수
  • λ (람다): 단위 시간 또는 공간에서 발생하는 평균 사건 수
  • k! (케이 팩토리얼): k의 팩토리얼
  • 첨도(kurtosis): 커토우시스
  • 왜도(skewness): 스큐너스
  • 공분산(Covariance): 코베어리언스
  • 상관계수(Correlation Coefficient): 코러레이션 코어피션트
  • p-value(피값): 유의확률