생물정보학 (문단 편집)

== 역사 ==
변변찮은 실험 도구를 이용하여 실험을 하던 생물학의 초기 단계에선 기껏해야 엑셀 등의 프로그램으로 분석이 가능한 데이터들이 느린 속도로 만들어지고 있었다. 1990년대부터 기기 등의 발달이 생물학에 서서히 영향을 주기 시작, 1990년대 후반부터 서서히 대용량의 생물학 데이터들이 만들어지기 시작한다. 세계적으로 가장 잘 알려진 예는 인간 유전체 프로젝트(Human Genome Project, HGP)로, 사람의 모든 염색체의 서열을 알아 낸 것이었다. 이 때, 한 번에 한 개의 염색체를 전부 서열분석(sequencing)을 할 수 없기 때문에, 잘려진 DNA 조각들을 개별적으로 서열을 알아 낸 후, 양 끝의 겹치는 서열을 이용하여 조합하는 식으로 전체 염색체의 서열을 알아 내는 식으로 분석하였다. 염색체의 길이가 매우 크기 때문에 이 작업에 컴퓨터가 필수 불가결하였다.

이 즈음 (2000년대 초반) 세포 안에 발현되어 있는 모든(이론적으로) 메신저 RNA(mRNA)의 양을 한 번에 측정해 내는 기술인 마이크로어레이가 개발되어 널리 사용되기 시작하였다. 대략 1만개에서 2만개 정도 되는 유전자에 대하여 그들의 모든 양을 한 번의 실험으로 측정할 수 있게 된 것이다. 즉, 변수의 개수가 1~2만개 정도 되는 여러 문제들이 탄생한 것이다.

그 이후, promoter methylation, SNP, RNA-seq. 등에 의한 대량 데이터는 계속적으로 생산되고 있다. 특히 세포 내에 존재하는 여러 종류의 RNA의 서열을 직접 분석해서 정량하는 기술인 RNA-seq에 의해 엄청난 양의 데이터들이 생산되고 있다. 한 사람의 모든 염색체의 서열 역시 하루 이틀이면 되는 시점에 이르렀다. 이러한 양의 데이터를 분석하는 것이 생물정보학의 주요 임무이다. 실제로 현재 구글/아마존/IBM/KT 등이 이러한 생물학 데이터의 저장/분석에 사활을 걸고 있는 실정이다. 현재 아마존에서는 1000 genome project를 통해 나오는 데이터를 얹어 놓은 기계를 공개[[https://aws.amazon.com/1000genomes/|했다]].

[[분류:생물학의 하위 학문]]
[[분류:통계학의 하위 학문]]
[[분류:컴퓨터 공학]]
[[분류:생물정보학]]

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

생물정보학 (문단 편집)

캡챠