Sturges' Formula

Sturges' Formula는 Herbert Sturges가 1926년에 논문 The choice of a class interval에서 발표한 공식으로, 주어진 자료의 개수를 이용하여 히스토그램을 그릴 때 필요한 계급 구간의 개수를 결정할 수 있도록 해준다. 그 공식은 아래와 같다.

여기서 k는 구하려는 계급 구간의 개수, n은 자료(측정치)의 개수, [x]는 ceiling function으로 ‘x이상의 정수 중에서 최소 정수’를 뜻한다. 위 식을 계산하기 쉽도록 근사하게 상용로그로 변환하면

가 된다.

 

예를 들어, 포도 농장에서 수확한 포도 77개의 무게 자료를 히스토그램으로 나타낸다면, 위 식에 대입하여 나온 결과대로 8개의 막대를 사용하면 될 것이다. 이 때, 각 계급의 크기(너비)는 (max x - min x)/k로 쉽게 정할 수 있다. 만약 77개의 포도 중 가장 무거운 포도가 700g이고 가장 가벼운 포도가 300g이라면 계급 구간의 너비를 50g으로 정하면 편리할 것이다.

 

‘일반적인 데이터’를 이용한 히스토그램 작성에서 Sturges' Formula는 합리적인 결과를 내어 놓는다. 그러나, 몇몇 특수한 경우에서는 그렇지 못한 것으로 보인다. 이 공식은 오직 자료의 개수 n만을 가지고 수학적인 계산에 따라 계급 구간의 개수를 산출하기에 자료의 의미를 전혀 반영하지 못한다. 만약 자료의 수 배열에 특별한 의미가 있다면 이 공식을 사용하는 것은 바람직하지 않다.

 

예를 들어, 다음과 같은 자료가 있다면 Sturges' Formula에 따라 계급 구간을 7개로, 계급 구간의 너비를 1.13으로 정하여 히스토그램을 그리는 것보다는 통계가 의도하는 바에 따라 계급 구간을 10개로, 계급 구간의 너비를 1로 정하여 그리는 것이 훨씬 나을 것이다. 옷 치수 같이 정형화된 규격이 있는 자료에서도 마찬가지다.

이 공식은 분명히 계급 구간 개수의 결정에 큰 도움을 준다. 하지만 유용하지 않은 결과를 내어놓을 때도 있으므로, 히스토그램을 그리는 통계학자는 때에 맞추어 선별적으로 이 공식을 사용하는 것이 좋을 것이다. 또 필요하다면 산포도나 계급 구간의 너비와 같은 다른 요소도 고려하는 공식을 쓰는 것도 바람직해 보인다.

 

작은쥐여우원숭이가 경상북도 안동군 풍산면 계평동에서 씀 ☞ 덧글
사람 인증
암호

목록으로