기초 데이터 분석 용어 목록

황제낙엽 2024.10.17 07:08 조회 수 : 121

sitelink1
sitelink2

정의 목록

중앙값
데이터의 중간값을 나타내는 대표적인 위치 통계량
분산(variance)
평균으로부터 얼마나 떨어져있는지 나타내는 수치
표본 분산(Sample Variance)
모든 데이터가 아닌 표본 데이터들의 분산
편차
평균과의 차이 (음수와 양수)
표준편차
분산이 편차 제곱의 합이기 때문에 분산에 루트를 씌워 단위를 맞춘값 (양수)
분포(distribution)
데이터나 확률변수가 어떻게 퍼져 있는지를 나타내는 패턴을 설명
확률(probability)
특정 사건이 발생 할 수 있는 비율로써 0~1 사이의 값이다.
0, 1을 포함하며 모든 사건의 확률 합은 1이다.
확률변수
특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
확률분포
확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지를 나타내는 패턴
ex> 이산확률분포, 연속확률분포
기댓값(expected value)
특정 사건이 시행되었을때 확률변수 X가 취할 수 있는 값의 평균값
관측될 것이라고 기대되는 관측값에 대한 평균
ex> 이산확률변수의 기댓값, 연속확률변수의 기댓값
요약값
- Summary value: 데이터의 요약된 값을 나타내는 일반적인 표현
- Summary statistic: 평균, 중앙값, 분산 등과 같이 데이터를 요약하는 통계 값들을 의미
첨도(kurtosis)
확률분포의 뾰족한 정도를 나타내는 측도
왜도(skewness)
확률분포의 비대칭 정도를 나타내는 측도
모수(Parameter)
모집단의 평균, 분산과 같은 수치값으로써 주로 표본을 통해 추정하여 산출
표본 평균(Bar, $\overline{X}$ )
확률변수 X의 평균 또는 표본 평균을 의미하며 엑스 바(X-bar)라고 읽는다
확률변수의 기댓값은 $\mathbb{E}(X)$ 로 나타내며 기댓값은 확률변수의 평균적인 값이다
$E (X)$ 와 $\overline{X}$ 는 서로 관련이 있지만, 기호 위에 바가 있는 것은 실제 표본으로부터 계산된 평균이고, $\mathbb{E}(X)$ 는 이론적인 기대값이다
공분산(Covariance) - Cov(X,Y)
공분산(Covariance)은 두 개의 변수가 어떻게 함께 변하는지를 측정하는 통계적 개념
한 변수가 변할 때 다른 변수가 어떻게 변하는지를 나타내며, 두 변수 간의 선형 관계를 나타냄
상관계수(Correlation Coefficient) - Correlation(X,Y)
  공분산은 두 변수 간의 선형 관계의 크기와 방향을 나타내지만, 공분산의 값은 두 변수의 단위에 따라 달라지고 공분산의 크기는 절대적인 의미가 없을 수 있다
  그래서 이를 해결하기 위해 상관계수(Correlation Coefficient)를 사용한다
  상관계수는 공분산을 두 변수의 표준편차로 나눈 값으로, -1과 1 사이의 값으로 정규화되어 두 변수 간의 관계를 보다 직관적으로 이해할 수 있다
유의 수준(α)
귀무가설이 참일 때 이를 잘못 기각할 최대 허용 확률을 의미
유의 확률(p-value)
가설 검정에서 귀무가설이 참이라는 가정하에 현재 데이터에서 관측된 결과가 나올 확률을 의미하며 검정통계량으로부터 얻는 값이다
절댓값
제곱근
제곱수
로그
공분산
상관계수
전치행렬
4분위수
정규 분포
표본
확률 값
넓이 값
균일 분포
산점도

발음기호 목록

X (엑스): 확률 변수
P (피): 확률
p (피): 성공 확률
1−p (원 마이너스 피): 실패 확률
P(X=1)=p : 엑스가 1일 확률은 피
P(X=0)=1−p : 엑스가 0일 확률은 원 마이너스 피
f(x) (에프 엑스): 확률 밀도 함수
σ (시그마): 표준 편차
μ (뮤): 표본의 평균
$\overset{ˉ}{x}$ (엑스바): 모집단의 평균
π (파이): 원주율 (≈3.14159)
e (이): 자연상수 (≈2.71828)
k (케이): 사건의 발생 횟수
λ (람다): 단위 시간 또는 공간에서 발생하는 평균 사건 수
k! (케이 팩토리얼): k의 팩토리얼
첨도(kurtosis): 커토우시스
왜도(skewness): 스큐너스
공분산(Covariance): 코베어리언스
상관계수(Correlation Coefficient): 코러레이션 코어피션트
p-value(피값): 유의확률

이 게시물을

번호	제목	글쓴이	날짜	조회 수
»	데이터 분석 용어 목록	황제낙엽	2024.10.17	121
7	[ChatGPT] 모수(Parameter)의 정의와 종류	황제낙엽	2024.10.25	171
6	[ChatGPT] 공분산(Covariance)과 상관계수(Correlation)	황제낙엽	2024.10.24	100
5	[ChatGPT] 평균의 종류	황제낙엽	2024.10.24	128
4	[ChatGPT] 첨도(Kurtosis) 와 왜도(Skewness) 의 사용 용도	황제낙엽	2024.10.24	266
3	[ChatGPT] 표본 분산(Sample Variance)	황제낙엽	2024.10.17	135
2	중앙값(Median)	황제낙엽	2024.10.17	139
1	[ChatGPT] 데이터 분석에 사용하는 수학	황제낙엽	2024.10.17	127

쓰기 태그

첫 페이지 1 끝 페이지

기초 데이터 분석 용어 목록

댓글 0

로그인