막대그래프 (문단 편집)

== [[히스토그램]] ==
[[파일:막대그래프_1.png]]
{{{+2 Histogram}}}[* 역사를 뜻하는 단어 history와 그림을 뜻하는 diagram의 합성어이다. 막대그래프는 대부분 서로 다 다른 것을 다루는 반면 히스토그램은 역사가 있는 것처럼 연결되어 있기 때문에 붙여진 이름이다.]

도수분포표에서 수집한 자료들을 나열하기 위해 사용하는 막대그래프 모양의 그래프로, 일반 막대그래프와는 달리 가로가 계급, 즉 값에 해당한다는 결정적인 차이점이 있다. 원래는 막대 간의 간격 없이 막대끼리 서로 붙어 있어야 하는 게 올바른 그래프지만, 막대그래프처럼 막대 사이에 간격을 두고 띄어서 그리는 잘못된 경우도 종종 있다.

어떤 자료에 대하여 가로축에는 값의 범위를, 세로축에는 그 자료의 해당 범위에 속하는 값의 개수를 적으며, 이를 막대그래프와 같은 방법으로 표현한다. 예를 들어 위와 같은 히스토그램에서는 10 이상 15 이하의 값이 1개, 15 초과 20 이하의 값이 3개, ..., 50 초과 55 이하의 값이 1개임을 알 수 있다. 다른 표현 방법으로는, 가로축의 눈금에 값을 적고 막대는 눈금 사이에 그리는 방법도 있다. 사실 각 막대의 범위가 균등할 필요는 없다. 경우에 따라 가변적으로 그리기도 한다.

연속적인 값을 쌓는 것이다보니 막대의 범위를 얼마로 설정해야 하는지가 애매하게 느껴질 수 있을 것이다. 사실 이에 대한 명확한 규칙은 없다. 다만, 다음 사항 하나는 지켜야 쓸 만한 히스토그램을 그릴 수 있다. 각 막대에 충분히 많은 데이터가 쌓여야 한다는 것이다. 예를 들어 [[정규분포]]를 갖는 어떤 값을 가진 데이터가 1만 개 있다고 하자. 이걸 가지고 히스토그램을 그린다고 하면 보통 예쁜 언덕 모양의 그래프를 얻기를 기대할 것이다. 그런데 막대 개수를 1만 개로 쪼개서 히스토그램을 그리면 너무 작은 막대들이 무작위로 짜글짜글하게 깔려 있는 그런 그래프를 얻게 될 것이다. 다만 -3부터 +3까지만 그린다고 가정하였을 때[* 물론 정규분포를 가지는 값이면 -3과 +3 사이의 값만 가지지 않을 수도 있다. 하지만, 히스토그램의 범위를 무한대로 할 수는 없으므로 이 범위를 벗어나는 데이터들을 어떻게 잘 처리하는 것 또한 관건이다. 이러한 히스토그램 범위 밖의 데이터들이 위치하는 곳을 underflow/overflow bin이라고 부른다. 참고로, 당연히 꼭 -3부터 +3까지일 필요는 없다. 어디까지나 예시이고, 데이터와 목적에 맞춰 이 범위를 잘 설정하는 것 또한 중요하다.], 이 범위를 대충 20등분으로 해서 히스토그램을 그리면 잘 알려진 정규분포 그래프와 비슷한 모양을 얻게 될 것이다. 100개로 쪼개면 좀 짜글짜글하지만 그런대로 종 모양과 비슷한 그래프를 얻을 것이다. 보통 각 막대(bin)에 들어가는 데이터 개수와 그 제곱근 값을 가지고 통계량이 충분한가 판단한다. 물론 데이터가 많으면 많을수록 막대들을 더 잘게 쪼개도 상관 없을 것이다. 참고로 앞에서 말한 균등하지 않은 막대 크기들도 이 통계량 때문에 쓰는 것이다. 데이터 양이 충분하지 않을 것 같은 구간을 덜 쪼갠다든가 하는 식이다.

지금까지 1차원 히스토그램만 설명하였는데, 2차원 히스토그램도 있다. 어떤 데이터가 두 개의 값을 가질 경우 그리는 그래프이다.[* 물론, 둘 중 하나만 가지고 (즉, 나머지 값은 고려하지 않고) 1차원 히스토그램을 그릴 수도 있다. 아니면 데이터가 셋 이상의 값을 가질 때에도 그 중 둘만 골라 2차원 히스토그램을 그릴 수도 있다.] 여기서는 y축 또한 데이터 값으로 하여 범위를 쪼갠다. 그러면 x축 범위와 y축 범위 각각이 직사각형들을 이룰텐데, 그 안에 들어가는 데이터들의 개수를 세는 것이다. 예를 들어 공을 던진 다음 공이 떨어진 위치의 x축 좌표와 y축 좌표를 측정할 수 있을텐데, 이를 여러 번 반복한 다음 각 좌표 범위에 해당하는 직사각형('막대')에 들어가는 데이터 개수를 세는 것이다. 그런 점에서 1차원 히스토그램과 원리 면에서는 똑같다. 다만, 표현하는 방법이 문제인데, 똑같이 데이터 개수를 '높이'로 하여 3차원 그래프를 그릴 수도 있다. 이러면 많은 경우 오히려 모양이 직관적이지 않을 수 있다. 그래서 보통은 2차원으로 그리되, '높이'는 색으로 표현하곤 한다.[* 무슨 색이 얼마고 하는 것을 따로 팔레트 형식으로 옆에 그리는 것이 보통이다.] 그 외에도 여러가지 방법이 있으니, 상황에 맞춰 쓰면 되겠다. 기본적으로 두 값의 통계적 상관 관계나 migration 등을 관찰하고자 할 때 이 2차원 히스토그램이 많이 그려지곤 한다.

[[파일:The-4-lepton-invariant-mass-distribution-in-the-CMS-experiment-clearly-showing-the-Higgs.png]]

의외로 현대 과학 분야에서 몹시 자주 쓰이는 도구이다. 아무래도 실험에서 얻어지는 데이터들은 대부분의 경우 어떤 분포를 가질 것이기에 그 분포를 구하고 예측과 맞춘다든가 혹은 새로 예측을 하려고 하는 것이 목표인 경우가 많아서 그렇다. 대표적으로 입자실험물리에서 보는 그림들 중 절대 다수는 바로 이 히스토그램이다. 아예 양자역학적인 프로세스들을 보고자 한다면 결국 (확률)분포를 관측하는 것이 가장 적합할텐데, 히스토그램은 이를 표현하기에 안성맞춤이기 때문이다. 위에 예시로 그린 히스토그램은 [[LHC]]에서 발견된 [[힉스 입자]]의 증거 중 하나로 소개되는 그래프들 중 하나이다. 수많은 충돌 각각에서 측정된 특정 물리량[* 전자와 뮤온 네 개의 총 불변 질량(invariant mass)이다. 전자와 뮤온이 네 개 포함된 이벤트들을 잘 모은 다음 (이런저런 추가적인 선택 조건을 적용시켜 이벤트들을 쳐내고 나서), 위 그래프를 그린 것이다.]을 잡아다 히스토그램을 그려 이론이 예측하는 확률 분포[* 참고로 위 그래프에서 얻어진 이론 예측 분포 역시 히스토그램으로 그린 것이다. 무슨 말이냐면 [[몬테 카를로|이론이 예측하는 충돌 반응을 시뮬레이션으로 엄청나게 많이 구현해 낸 다음]] 실험 데이터로 그린 것과 똑같은 방법으로 시뮬레이션 데이터를 가지고 히스토그램을 그린 것이다. (그래프가 각져 보이는 이유가 바로 여기에 있다. 사실 저 각진 것들 하나하나가 다 히스토그램을 구성하는 막대들인 것이다.) 입자물리 실험에서 몹시 자주 쓰이는 방법이다.]와 비교하는 것으로 이론 검증을 (혹은 가설 검정을) 수행할 수 있다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

막대그래프 (문단 편집)

캡챠