데이터로 풍성한 사회과학의 미래 보장하기(Science, 11/Feb/2011)

##

‘원문’

Gary King

유익한 사회과학 데이터의 엄청난 증대가, 많은 주요 사회 문제들을 분석하고 이해하고 해결하는 데 드라마틱한 진전을 가능케 했다. 그럼에도 여전히 데이터 공유, 데이터 관리, 정보학, 통계 방법론과 연구 윤리와 연구 정책에 심각한 도전이 동일한 강도로 야기되고 있고, 이런 문제들이 집합적으로 진보를 막고 있다. 나는 다가오는 변화와 도전에 대해 언급하고, 사회과학자와 정책이 무엇을 해야할지 제안해 보겠다.


15년 전, 사이언스는 60명의 과학자로부터 각자 자신들 분야의 미래에 대한 예측을 받아 발한 적이 있었다. 물리학자들과 자연과학자들은 놀랄만한 발견의 계승, 구성될 발견, 풀어야 할 문제와 실현 가능해 보이는 정책과 엔지니어링의 변화에 대해 썼다. 이와 대조적으로 (비교적 작은 수의) 사회과학자들은 그들이 생각하는 해결해야 할 단일한 문제를 언급하지 않았고, 또한 어떤 발명이나 발견도 언급하지 않았다. 대신 그들은 사회과학 장학금에 대해 썼다. 우리가 어떻게 연구 했었고, 앞으로 우리가 어떻게 연구를 할지에 대한 것 말이다.

운 좋게도, 편집자가 전하는 경고는 좀 더 선견지명이 있었다. “역사는 과학자들이 미래를 과소평가하는 경향이 있다는 걸 시사한다.”

과연 그랬다. 사회과학자들이 1995년에 예측하지 못했던 것은, 새로운 사회과학 데이터의 맹공격이었다. 거대하고 예전보다 훨씬 유익하며, 이전보다 많은 것들을 가능케 하는 정보 말이다. 오늘날 막대한 양의 사람들과 그들의 다양한 그룹과 연결에 대한 디지털 정보가 컴퓨터 기술의 혁명, 정태적 기록과 디바이스에 담긴 내용을 쉽게 다룰 수 있는 데이터 소스로 들어가게 하는 아날로그-디지털 변환, 데이터를 공유하고 무작위화된 정책 실험을 정부들로 하여금 하게 만드는 경쟁, 사람들의 상호작용을 돕는 새로운 기술, 데이터 수집의 새로운 양식을 창출하고 현금화하는 많은 상업적 실체를 통해 생성되고 있다.

현미경을 미생물학자들에게 쥐어줬던 것 마냥, 사회과학자들은 인간 사회에 영향을 미치는 기존의 다루기 힘들었던 많은 문제를 이해하고 해결하기 위한 충분한 정보가 존재하는 영역에 다가서고 있다. 범죄를 연구하고 싶은가? 지금까지 연구자들이 범죄희생조사에 크게 의존했던 반면, 이제는 실시간으로 위치정보화된 방대한 분량의 사건 보고서가 사용가능하다. 여론조사의 영향은 어떤가? 임의 추출된 1000명 내외의 응답자 조사에서 더 나아가, 연구자들은 이제 하루에 1억 명이 넘는 소셜 미디어 포스팅을 구할 수 있고, 유의미한 정보를 추출해낼 수 있게 고안된 새로운 텍스트 분석 방법을 사용할 수 있다. 동시에, 생물학의 일부는 유전체학(genomics), 단백질체학(proteomics), 대사체학(metabolomics)과 뇌 영상법(brain imaging)이 많은 수의 개별 인간 차원의 변수를 생성함으로서 효과적으로 사회과학이 되어가고 있다. 이런 분야의 연구자들은 행동 표현형 측정에 참여한다. 병행해서 컴퓨터 과학자들과 물리학자들은 새로운 방법론과 데이터 수집 기법을 통해 사회과학 데이터를 탐구하고 있다.

새로운 데이터의 잠재력은 상당하고, 사회과학 분야의 흥분 역시 뚜렷하다. 근본적인 질문은 연구자들이 이 정보를 액세스 하고, 분석하고, 인용하고, 보존하고, 보호하는 방법을 찾을 수 있는지에 있다. 오늘날 학자들에게 정보 과부하가 언제나 이슈가 됐지만, 데이터 공유, 데이터 관리, 정보과학, 통계 방법론과 연구 윤리에 대한 인프라 문제는 유익한 정부의 엄청한 증가로 인해 압도 당하고 있다. 많은 사회과학 데이터셋은 매우 가치 있고 민감하다. 그래서 상업 단체가 수집할 경우, 외부 연구자들에겐 액세스 권한이 부여되지 않는다. 심지어 민감한 데이터를 연구원들이 수집하거나, 기업을 통해 획득했더라도, 개인정보보호 문제는 연구 완료 후 데이터가 파괴되어야 한다는 공공 정책을 때때로 이끌어내곤 한다. 이런 방침 때문에 과학적 복제가 불가능해지고 사기치는 연구물의 출간이 증가할 수도 있다는 것은 명백한 사실이다. 실제 우리는 전례 없는 데이터 증가 및 개인 정보에 대한 접근성과 전세계 인류의 사생활 보호 사이의 엄청난 충돌의 한복판에 있다. 이런 현상 역시 효과적으로 연구 주제가 될 것이다(그림1 참조).

그림1그림1. 핵심적인 기반시설에 대한 도전을 물리칠 때에야, 인간 행동과 사회에 관한 새로운 타입의 연구 데이터가 새로운 기회들을 제공할 것이다.

새로운 데이터가 얼마나 연구자에게 더 유익하고, 잠재적으로 사람들에게 거슬리는지 고려해 보라. 연구자들은 이제 휴대전화, Fastlane 또는 EZPass 트랜스폰더, 아이피 주소와 비디오 감시로부터 연속적인 시간위치 정보를 얻게 됐다. 우리는 개인별 유권자 등록, 프라이머리 참여, 개별적인 캠페인에 대한 공헌, 서명 캠페인과 투표 이미지로부터 정치적 선호에 대한 정보를 가지고 있다. 상업 정보는 신용카드 거래, 부동산 구매, 자산 표시, 신용 조사, 상품별 RFID, 온라인 제품 검색과 구매, 그리고 장치별 지문인식을 통해 획득 가능하다. 건강 정보는 전자 의료 기록, 병원 입원 정보 및 지속적인 모니터링, 수동 심박 박동 측정, 운동 표시기, 피부 전도와 온도 측정을 위한 새로운 장비를 통해 수집된다. 소셜 미디어 포스팅, 이메일, 상품 리뷰, 연설, 정부 보고서 및 다른 웹 소스를 통해 비정형 텍스트 형식에 담긴 방대한 정보가 만들어진다. 위성 이미지는 해상도가 증가하고, 학술적인 유용성도 증가하고 있다. 네트워킹, 북마크, 하일라이트, 의견달기, 상품 리뷰, 추천, 주석 달기 등 ‘소셜한 모든 것Social everything’은 모든 웹 공간에서 돋아나고 있다. 그리고 이러한 것들은 종종 연구가 가능한 방식으로 모인다. 온라인 게임과 가상 세계 참여는 훨씬 더 상세한 데이터를 만들어낸다. 상업적인 기구들은 직원 행동, 웹사이트 방문자, 검색 패턴, 광고 클릭 스루와 점점 더 많은 정보를 포착하는 클라우스 서비스 방식을 추적해 비즈니스 운영 개선을 위한 데이터를 생산하는데 전력을 다한다.

다른 학자들이 이용할 수 있는 데이터, 코드, 개별 간행 논문과 관련된 정보를 만들어 온 사회과학 분야에서의 노력은 소프트웨어, 저널의 방침과 향상된 연구자들의 실천을 통해 얼마간 발전해 왔다. 하지만 이런 움직임은 민감하고 사적이거나 재산과 관련된 데이터를 공유하는 방법의 개선이 데이터의 유형과 양의 변화를 떠받칠 정도로 충분히 빨리 수정되지 않거나, 연구자들이 데이터를 활용하는 것을 허용하고 독려하는 공공정책의 조정과정이 없을 경우, 취약해지기 십상이다. 꼭 필요한 기술 혁신은 보기보다 어렵다. 예를 들어, 생년월일, 성별, 우편번호만 있어도 87%의 미국 모집단을 식별하기에 충분한 반면, 데이터를 익명으로 처리하는 방식으로 사람들의 신망을 얻을 수 있는 전략은 실제 적용에는 매우 쓸모 없을 수 있다. 그리고 10개 카테고리로 10개 질문을 짜서 만들어낸 교차 분류는 지구 전체의 인구보다 더 독특한 분류를 포함하기 마련이다. 이제 도시 전체에서 모인 연속 시간 휴대전화 위치 정보를 공유하거나, 수십만 가지 변수가 있는 생물학적 정보의 도전에 대해 생각해 보자. 개인 정보가 공공연히 활용가능해져서 발생하는 새로운 폭로에 의해 발생하는 미디어 천둥(media storm) 때문에 정치적 상황은 또한 복잡해진다. 하지만 같은 시간 시민들은 개인 전자 메일을 완전히 공적으로 또는 절반쯤 공적인 소셜 미디어 포스팅으로 재빠르게 전환하는 등 자발적으로 프라이버시를 이전보다 훨씬 더 포기하고 있다.

만약 프라이버시가 정보 공유를 허용하는 방식으로 보호될 수 있다면, 어떠한 연구 주제를 방해할 필요 없이 상당한 모든 사람들을 위한 진보를 만들어낼 수 있다. 예를 들자면 이러한 상황은, 만약 모든 것이 예상했던 대로 작동할 경우, 한 쪽 팔이 다른 팔에 비해 더 해를 입을 것이라는 방식의 대부분의 무작위 의학 실험 진행보다 쉬워 보인다. 게다가 데이터 공유에 대한 대부분의 관심은 개인들을 참여시키는 반면, 사회과학자들은 보통 집합에 대한 일반화를 시도하기 마련인데, 통계적 방법의 적용을 통해 이러한 구분을 포괄할 수 있게 된다.

새로운 데이터를 활용하면서 데이터 공유를 촉진하고 동시에 개인 정보를 보호하기 위해 우리는 무엇을 할 수 있나? 먼저, 사회 다른 부문들에 우리에게 재량권을 달라고 설득하기에 앞서, 우리 사회과학자들이 함께 행동하는 것이 필요하다. 현재 대부분 분야에서 사회과학자들에 의해 수집되는 대형 데이터셋은 일상적으로 공유된다. 하지만 독특하거나 더 큰 데이터셋에서 파생되는 훨씬 더 많고 더 작은 데이터셋들은 정기적으로 유실되거나 숨겨지거나 사용할 수 없게 돼, 관련된 서적의 데이터셋 복제를 불가능하게 만든다. 대부분의 경우, 액세스가 반드시 필요할 때도 정부의 시행 규칙이 없으면, 개별 출판물과 관련된 많은 데이터 셋, 관련 컴퓨터 코드 및 간행 자료에 나온 산출된 표와 그림을 재생산하기 위해 입력된 데이터에서 추출할 수 있는 기타 정보는 원저자의 허가 없이 사용할 수 없다. 이런 상황은 심각한 재검토와 행동을 필요로 한다. 우리는 원저자에게 웹 가독성과 학술 크레딧을 양보할 필요가 있고, 원저자의 임의 결정이나 제어를 필요로 하지 않게 규칙을 통해 정립된 액세스 표준을 통해, 데이터를 전문적으로 보관하게끔 유도해야 한다.

둘째, 우리는 복제 운동이 성장하게끔 육성할 필요가 있다. 더 많은 개인 학자들이 복제 운동을 사회과학 데이터 보존 연맹과 관련된 공공 아카이브처럼, 공공 아카이브들의 데이터 및 복제 정보 보전에 대한 의무로 여기게 해야 한다. 더 많은 저널들이 저자들로 하여금 출판 조건으로 데이터를 이요할 수 있도록 장려하거나 요구해야 한다. 그리고 연구 승인 기관들은 데이터 공유 규범에 대한 독려를 지속해야 한다. 좀 더 중요한 건, 연구자들이 누군가를 가르칠 때 데이터 공유와 복제를 과학적 과정의 필수적인 부분으로 설명해야 한다는 것이다. 학생들은 스스로 또는 누군가가 할 수 있는 큰 공헌이 데이터 공유를 통해 이루어질 수 있음을 이해할 필요가 있다.

셋째, 우리는 프라이버시가 증강된 데이터 공유 프로토콜에 대한 연구를 계속하고, 정부 관료에게 가능한 것들을 더 잘 소통해 낼 필요가 있다. 최신 기술은 수억명의 사람들이 온라인 뱅킹, 온라인 상거래, 온라인 투자를 할 수 있게 한다. 또한 사람들로 하여금 그들의 개인적인 의료 기록을 볼 수 있게 한다. 그들의 사진, 동영상과 개인적인 문서를 온라인에 보관할 수 있게 한다. 그리고 선별된 사람들에게 가장 사적인 생각과 비밀을 공유할 수 있게 한다. 그렇다면 공공의 이익을 위해 사적인 정보와, 개인 식별이 가능한 정보를 분석 할 때, 연구원이 (인터넷 기관의 검토위원회를 통해) 인터넷, 기타 데이터 소스, 다른 사람과의 전자 통신에 액세스하지 않거나, 각자 보통 쓰는 다른 소프트웨어와 하드웨어 툴을 쓰지 못하게 한 채, 잠긴 방에서 업무를 수행하도록 정책을 통해 정기적으로 요구하는 이유는 무엇일까? 당연히 우리는 데이터 공유와 분석이 훨씬 편리하고, 효율적이며 생산적인 방식으로 진행되는 동안에도, 프라이버시가 지켜질 수 있게끔 정책, 프로토콜, 법적 표준과 컴퓨터 보안을 개발할 수 있다. 사회과학 연구의 진보는 정책을 통해 연구자들로 하여금,기업, 정부 및 민간인에게 하듯이, 물리적 방식보다 더 적절한 디지털 보안 방식을 이용해 민감한 데이터를 분석할 수 있게끔 허용해 줄 때 훨씬 더 가속화 될 것이다.

넷째, 프라이버시가 이슈가 아닌 경우에도, 데이터 공유는 단순히 웹사이트에 데이터를 집어 넣는 것 이상을 포함한다. 학자들과 학술 저널의 편집자들은 전문적인 아키비스트(archivist)가 아니고, 현재까지 자체 개발된 일회용 솔루션은 오래 가지 않는다. 데이터 형식은 매우 빨리 변화해, 아카이빙 표준이 국제적으로 합의된 메타데이터 프로토콜과 적절한 데이터 인용 표준을 사용하는 특별 보존 양식을 필요로 하게 했다. 사회과학자들은 데이터 분석과 공유를 쉽게 해주는 공통의 오픈소스 협업 인프라 구축을 계속할 필요가 있다. 하지만 이미 사회과학연구가 학제적으로 운영되어 버리는 시대에, 학문 분야의 사일로에서 데이터 공유 하는 수준으로 만족하지 않으려면, 학술 분야를 가로질러 운영되거나, 최소한 상호 운영되는 솔루션을 개발할 필요가 있다.

마지막으로, 사회과학자들은 법률가 집단의 추가적인 도움도 활용할 수 있을 것이다. 데이터 이용 협약은 모든 데이터 셋이 거래 비용만 높이고 데이터 공유를 줄이게 만드는 자체의 고유한 법적 업무(해악)를 갖지 않도록, 표준적인 지적 재산권 규칙과 데이터 사용 계약을 더 발전 시켜야 한다. 연방정부는 학계 연구자들이 이미 사회의 다른 분야에서는 일상적으로 하는 데이터를 수집하고 공유하고 간행하는 것을 막는 규칙을 재고하고 완화해야만 한다.

물론, 사회과학자들도 데이터를 간행하고 공유하기 전에 해야 할 일이 많다. 우리는 어떻게 학생들에게, 비표준 데이터 유형, 확장 가능한 컴퓨팅 방법, 법적 프로토콜, 데이터 공유 규범과, 새로운 기회를 주는 통계 툴을 가르칠지 방법을 찾아야 한다. 데이터는 지금, 많은 현직 사회과학자들의 업무가 눈에 띌 정도로 변화할 정도로 빠르게 도달하고 있다. 사회과학자들이 연구실에서 각자의 독립적인 연구를 하는 동안, 공저 비율이 빠르게 증가하고, 협업-유형의 연구 모델이 다양한 하위 분과에서 나타나고 있다. 사회과학 연구를 지원하기 위해 기반시설을 구축할 필요를 인지하는 대학과 기금 지원 기관도 그러한 추세를 강화할 것이다. 사회과학의 많은 영역에서 새로운 형태와 막대한 분량의 정보가 드라마틱한 진보를 가능하게 만들 수 있을 것으로 보인다. 이런 계기는 처음이다. 우리는 이에 대응할 준비가 되어 있나?