이론의 종말: 데이터 홍수가 과학적 연구방법을 구닥다리로 만든다

원문

“모든 모델은 틀렸다. 몇몇만 유용할 따름이다.”

통계학자 조지 박스(George Box)가 30년 전에 공공연히 밝혔고, 그가 옳았다. 하지만 무슨 선택지가 우리에게 있었나? 우주론 방정식에서 인간 행동에 이르기까지, 불완전하더라도 나름 일관성을 가질 수 있어 보였던 모델만이(only models) 우리 주변의 세계를 설명했다. 지금까지 말이다. 오늘날 무지막지하게 방대한 데이터의 시대 안에서 성장한 구글 같은 회사는 잘못된 모델을 바로 잡지 않아도(settle) 된다. 실제로, 그들은 모델을 전혀 결정하지 않아도 된다.

60년 전, 디지털 컴퓨터가 정보를 읽을 수 있게 만들었다. 20년 전에는, 인터넷이 그 정보에 접근 가능하게 해줬다. 10년 전에는, 첫번째 검색 엔진 크롤러가 그 정보를 단일한 데이터베이스에 담기게 했다. 이제 구글과 뜻을 같이 하는 회사들은 이 대량의 코퍼스를 인간의 조건을 연구하는 실험실로 활용하며, 유사이래 가장 많은 것들이 집계 되는 시대를 면밀히 살피고 있다. 이 회사들이야 말로 페타바이트 시대의 아이들이다.

페타바이트 시대는 더 많은 것이 다르기 때문에 다르다. 킬로바이트는 플로피 디스크에 담겼다. 메가바이트는 하드 디스크에 담겼다. 테라바이트는 디스크 어레이(disk arrays)에 담겼다. 페타바이트는 클라우드에 담긴다. 이런 기술진보를 거치면서, 우리는 폴더 수준 유추(analogy)에서 캐비넷 수준 유추로, 또 더 나아가 도서관 수준 유추로 나갔다. 이제 페타바이트를 다루면서 조직 수준 유추까지 나아갈 셈이다(ran out of organizational analogies). 

페타바이트 규모에서, 정보는 이제 3~4차원 분류와 질서 문제가 아니라, 차원적으로 불가지론적인 통계학의 문제가 됐다. 이런 상황은 우리가 데이터 자체를, 전체를 총체적으로 시각화 할 수 있는 어떤 것으로 보던 시각(tether)을 포기하길 요구한다. 즉 완전히 다른 접근을 요청하고 있다. 또한 데이터를 수학적으로 먼저 보고, 맥락은 추후에 세우길 강요한다. 예를 들어 구글은 오로지 응용 수학을 통해서 광고계를 재패했다. 구글은 문화와 광고의 관례에 대해 아는 척 하지 않았다. 구글은 그저 더 좋은 데이터와 더 나은 분석 도구가 이길 것이라고 가정했다. 그리고 구글이 옳았다.

구글의 설립 철학은 “우리는 이 페이지가 저 페이지보다 나은지 모른다”에 있다. 만약 유입되는 링크의 통계가 그렇다고 한다면, 충분히 좋은 것이다. 의미론 분석이나 인과 분석은 필요치 않다. 그게 구글이 실제로 언어를 “알게 되는” 과정 없이 번역할 수 있는 이유다. (동등한 코퍼스 데이터가 주어졌을 때, 구글은 프랑스어를 독일어로 번역하는 것 만큼이나 쉽게 Klingon어를 Farsi어로 번역할 수 있다.) 이것이 구글이 광고와 컨텐츠에 대한 지식이나 가정 없이도 서로 매치할 수 있는 이유기도 하다.

올해 3월 오라일리 신기술 컨퍼런스에서 구글의 연구 책임자 Peter Norvic은 George Box의 격언에 갱신을 제안했다. “모든 모델은 틀렸다. 그리고 여러분은 점차 모델 없이 성공하게 될 것이다.”

이제 막대한 양의 데이터와 응용수학이 지금까지 존속해온 다른 모든 툴을 대체하는 세계가 됐다. 언어학부터 사회학까지 인간 행동에 관한 모든 이론에서 벗어나라. 분류학과, 존재론과, 심리학을 잊어라. 사람들이 그들이 무엇인가 하는 이유를 누가 알겠는가? 핵심은 사람들은 그저 하던 대로 하고 있고, 유례없는 충실함으로 우리가 그것을 추적하고 측정할 수 있다는 것이다. 충분한 데이터가 있을 때, 숫자들 스스로가 말한다.

하지만 여기서 광고가 목표는 아니다. 목표는 과학이다. 과학적 방법은 검증 가능한 가설들에 기초를 두고 세워진다. 이러한 모델들은, 많은 부분에서, 과학자의 마음 속에서 형상화된 시스템이다. 이 모델들은 검증되고, 실험을 통해 어떻게 세계가 작동하는지에 대한 이론적 모델을 확증하거나 변조(falsify)한다. 이게 과학이 수백년간 작동해온 방식이다.

과학자들은 상관관계가 인과관계가 아닌 것을 인지하게끔 훈련받는다. 즉, X와 Y의 상관관계만 가지고선, 어떤 결론도 나지 않는다. 이는 단순히 동시발생일 따름이다. 대신, 당신은 그 둘을 잇는 메커니즘을 이해할 수 있어야만 한다. 당신이 모델을 가지게 됐을 때, 당신은 자신감을 갖고 데이터 셋을 연결할 수 있게 된다. 모델 없는 데이터는 ‘소음’일 따름이다.

하지만 막대한 양의 데이터와 직면하면서, 과학의 가설-모델-검증 접근은 구닥다리가 되어버리는 중이다. 물리학을 보자. 뉴턴 물리학 모델은 진리에 대한 대강의 추정이었다. (원자 수준에서는 틀리나, 여전히 유용하다.) 100년 전에, 통계에 기반을 둔 양자역학은 더 나은 그림을 제공했다. 하지만 양자역학은 아직 결함이 많으며 현실에 있는 더 복잡한 실재의 캐리커쳐에 불과하다. 물리학이 최근 몇 십년간 n차원 거대 통합 모델에 대한 이론적 추상 작업을 하며 부유했던 이유는 우리가 어떻게 가설을 변조할 수 있는지 방법을 몰라서였다(데이터가 부족했던 분야의 “아름다운 스토리” 단계랄까). 에너지가 너무 높고, 가속기가 너무 비쌌다.

이제 생물학은 같은 방향으로 나가는 중이다. 우리가 학교에서 “우성”과 “열성” 유전자라며 엄격한 멘델주의 프로세스를 이끌었던 모델들은 뉴턴의 법칙보다 훨씬 더 실재를 단순화시킨 것으로 바라보는 것으로 드러났다. 유전자-단백질 상호작용의 발견과 후생유전학의 다른 측면들은 DNA를 운명으로 보던 시각에 도전했다. 또한 유전적 특질과 유전학적으로 불가능했던 것들에 대해 환경이 영향을 끼칠 수 있다는 증거를 소개하고 해왔다.

요컨대, 우리가 생물학을 더 배울 수록, 생물학을 설명할 수 있었던 모델로부터 더욱 멀어지는 스스로를 발견하게 되는 것이다.

이제 더 나은 방식이 있다. 페타바이트는 우리가 “상관관계로 충분하다”고 말할 수 있게 해준다. 우리는 모델을 찾는 일을 멈출 수 있다. 우리는 무언가를 보여주려는 가설 없이 데이터를 분석할 수 있다. 우리는 이제껏 세계가 보지 못했던 거대한 컴퓨터 클러스터에 숫자를 던져넣을 수 있고, 통계 알고리즘을 통해 과학이 찾지 못하는 패턴을 찾아낼 수 있다.

통계 알고리즘이 찾아낸 성취의 가장 실용적인 예는 J. Craig Venter의 엽총 유전자 배열이다. 고속 염기서열분석기(sequencer)와 슈퍼컴퓨터를 통한 데이터의 통계 분서기 가능해져, Venter는 개별 유기체로부터 전체 생태계 배열까지 나아갔다. 2003년, 그는 ‘캡틴 쿡Captain Cook’의 항해를 따라가며, 대양의 많은 부분의 배열을 밝히기 시작했다. 그리고 2005년 그는 대기 안의 배열을 밝히기 시작했다. 그 과정에서, 그는 이전까지 알려지지 않은 수천 종의 박테리아와 다른 생물 형태를 밝혀냈다.

만약 “새로운 종을 밝혀낸다”는 단어가 다윈과 방울새의 그림을 언짢게 했다면, 당신은 낡은 방식의 과학하기에 갖혀 있는 것일 수 있다. Venter는 그가 찾아낸 종에 대해 거의 어떤 것도 말할 것이 없을 수 있다. 그는 새로운 종이 무엇을 닮았고, 어떻게 사는지 또는 그 형태학의 대부분에 대해서 모른다. 그는 심지어 그 새로운 종의 전체 게놈도 모른다. 그가 가진 것은 오로지 통계적 신호다. 그 독특한 시퀀스는 데이터 베이스 안의 다른 시퀀스와는 다르게 새로운 종을 재현한 것이다.

이 시퀀스는 우리가 더 잘 아는 종들과 비슷한 시퀀스들과 상관관계를 가질 수 있다. 그 경우, Venter는 동물에 대한 몇 가지 상상을 할 수 있다. 그 동물들이 햇빛을 특정한 방식으로 에너지로 만든다거나, 공통의 선조로부터 출발하거나 등. 하지만 Venter는 구글이 당신의 마이스페이스 페이지에 대해 갖고 있는 것만큼도 이 종에 대한 모델을 갖고 있지 못하다. 하지만 Venter는 구글 수준 컴퓨팅 자원을 통해 분석함으로써, 그의 세대의 누구도 하지 못했던 고등 생물학을 가지게 됐다.

이런 종류의 사고는 주류가 될 태세다. 2월, 국가 과학 재단(美)은 구글과 IBM이 함께 개발한 대형-규모 분산 컴퓨팅을 구동하기 위한 연구를 보조하는 클러스터 탐색 프로그램과 6개 대학의 시범연구를 발표했다. 그 클러스터는 1,600개의 프로세서, 4~5 테라바이트 메모리와 수백 테라바이트 스토리지를 담는다. 또한 IBM의 Tivoli와 GFS의 오픈소스 버전, 그리고 MapReduce 등 소프트웨어가 설치될 것이다. Early CluE 프로젝트는 뇌와 신경시스템의 시뮬레이션 및 두뇌와 소프트웨어 사이에서 벌어지는 현상에 대한 생물학적 연구를 포함할 것이다.

이러한 규모의 “컴퓨터” 사용을 배우는 것이 아마 도전이 될 것이다. 하지만 주어진 기회는 굉장하다. 엄청난 양의 데이터 사용과 이런 숫자를 고속으로 처리할 수 있는 통계 도구가 사용가능해짐으로써, 세계를 이해할 수 있는 완전히 새로운 길이 열린다. 상관관계가 인과관계를 대체한다. 그리고 과학이 일관성 있는 모델, 통일된 이론 또는 다른 어떤 기계론적 설명 없이 진보할 수 있다.

기존의 우리 방식을 이어갈 이유가 없다. 질문할 때다. 과학은 구글로부터 무엇을 배울 수 있나?

Chris Anderson(Wired 편집장 canderson@wired.com)