기초 중앙값(Median)

황제낙엽 2024.10.17 07:15 조회 수 : 47

sitelink1  
sitelink2  

내가 이해한 바로는 값들은 그냥 데이터로써 중앙이라는 의미가 단순히 데이터들간의 위치만을 의미하고 있다.

그 사이의 정 중앙에 위치한 값을 중앙값이라고 한다. (아마 그래프에서 x축의 정 중앙에 위치한 값을 찾을때 사용하는듯...)

 


[ChatGPT]

중앙값(Median)은 데이터 분석에서 데이터의 중간값을 나타내는 대표적인 위치 통계량입니다.

중앙값은 데이터를 크기순으로 정렬했을 때, 가장 가운데 위치한 값을 의미합니다.

이는 평균과는 달리 극단적인 값(이상치)의 영향을 받지 않기 때문에, 데이터의 분포가 비대칭이거나 이상치가 있는 경우에 대표값으로 많이 사용됩니다.

중앙값 구하는 방법

  1. 데이터를 오름차순으로 정렬합니다.
  2. 데이터의 개수에 따라 중앙값을 구하는 방식이 달라집니다.
    • 홀수 개의 데이터가 있을 경우: 중앙에 위치한 값이 중앙값입니다.
    • 짝수 개의 데이터가 있을 경우: 가운데 두 값의 평균을 중앙값으로 사용합니다.

예시

  1. 홀수 개의 데이터일 때:

    데이터: 3, 7, 1, 9, 5
    정렬된 데이터: 1, 3, 5, 7, 9
    중앙값: 5 (가장 가운데 값)
    
    데이터: 3, 7, 1, 9, 5 정렬된 데이터: 1, 3, 5, 7, 9 중앙값: 5 (가장 가운데 값)
  2. 짝수 개의 데이터일 때:

    데이터: 3, 7, 1, 9
    정렬된 데이터: 1, 3, 7, 9
    중앙값: (3 + 7) / 2 = 5
    
    데이터: 3, 7, 1, 9 정렬된 데이터: 1, 3, 7, 9 중앙값: (3 + 7) / 2 = 5

중앙값의 특징

  • 이상치에 강함: 평균은 매우 큰 값이나 작은 값에 영향을 받지만, 중앙값은 그 영향을 받지 않기 때문에 이상치가 있는 데이터에서 신뢰할 수 있는 대표값입니다.
  • 데이터의 분포를 설명: 데이터의 분포가 좌우 비대칭일 경우 중앙값은 평균과 차이가 있을 수 있습니다. 예를 들어, 한쪽으로 긴 꼬리를 가진 분포에서는 중앙값이 평균보다 더 중심적인 위치를 나타낼 수 있습니다.

평균과의 차이

  • **평균(Mean)**은 데이터의 모든 값을 더한 후 데이터 개수로 나누는 값입니다. 반면 **중앙값(Median)**은 데이터의 순서를 기준으로 중간에 위치한 값이므로, 두 통계량은 데이터 분포의 형태에 따라 다를 수 있습니다.
    • 정규분포(대칭적인 분포)에서는 평균과 중앙값이 거의 동일합니다.
    • 왜도 분포(비대칭 분포)에서는 평균이 중앙값과 달라질 수 있습니다.

중앙값의 사용 사례

  • 가구 소득: 소득 데이터는 매우 높은 소득을 가진 사람들이 있어서 평균이 왜곡될 수 있습니다. 중앙값을 사용하면 전체 가구의 중간 소득을 더 정확히 반영할 수 있습니다.
  • 주택 가격: 주택 가격 데이터도 비슷하게 극단적인 가격대의 주택들이 평균을 왜곡할 수 있기 때문에 중앙값을 사용하여 보다 일반적인 주택 가격을 파악할 수 있습니다.

중앙값은 데이터의 중심을 잘 나타내며, 특히 극단값이나 비대칭 분포에 유용한 통계량입니다.