a.k.a. predictive analytics(예측분석학), data crunching

한마디로 대용량의 데이터에 담긴 의미있는 규칙을 찾는 일입니다.

많은 자료 속에 숨어있는 일정한 패턴(규칙)을 발견하는 일이기에 “패턴 인식(pattern recognition)”의 영역과 맞닿아 있으며, 컴퓨터를 학습(훈련)시키는 “기계 학습(machine learning)”과도 유사합니다. 예전에 유행하던 좀더 포괄적인 개념으로는 “인공 지능(Artificial Intelligence)”도 있어요. 이 영역들은 각기 다른 탄생 배경을 가지고, 엄밀하게는 철학과 목적이 상당히 다르기도 하지만, 방법론의 측면에서는 상당히 유사해서 각 영역끼리 서로 배우는 점도 많지요.1

데이터마이너가 되면 좋은 점은?

세상의 다양한 면을, 다양한 관점에서 살펴볼 수 있습니다. 데이터마이닝을 하는 사람들은 보통 그 시초인 마케팅부터 시작해서, 주가의 흐름을 예측하기도 하거나(금융), DNA 분석이나 MRI 영상을 분석하기도 하며(의료), 디지털 카메라에서 얼굴 인식(기계)을 하기도 합니다. 사실상 직업이 매일 바뀌는 것이나 다름없죠. (물론 그 외에도 우리가 상상할 수 있는 대부분의 영역에 데이터마이닝이 적용된다는 사실!)

데이터마이닝의 현재?

기존의 “데이터마이닝(data mining)”이 기업의 고객 데이터베이스처럼 고정되어 있는 형식, 틀, 즉 구조적 자료(structured data)에 국한되었다면, 그것은 점차 인터넷 블로그과 같은 비구조적 자료(unstructured data)를 연구하는 방향으로 흘러가고 있습니다.

비구조적 자료의 분석에는 블로그 외에도 네이버나 구글과 같은 기본적인 검색(searching)부터 시작해서, 미투데이나 트위터와 같은 라이프로깅 사이트 등의 텍스트 문서들을 기반으로 하는 일명 “웹데이터마이닝(web data mining)”이 유행하고 있고요, 사진이나, 동영상, 음악 데이터를 이용하여 분석을 하기도 합니다. (결국 컴퓨터가 보기엔 숫자나 글자나 그림이나 하나같이 0과 1의 반복일 뿐이니까요.)

더 알고 싶어요!

데이터마이닝을 공부할 수 있는 곳은 국내외에 굉장히 많이 있고, 그 목록은 AI study 웹사이트 (국내, 국외) 에 잘 정리되어 있습니다.

그 중에서 특히, 제가 공부하고 있는 서울대학교 데이터마이닝 연구실에는 structured data를 다루는 학생도, unstructured data를 다루는 학생도 공부하고 있습니다. 저희는 요즘 유행하는 “big data”라는 개념에 대해 많은 고민을 해보고 있고, 연구실 차원에서 그와 연관된 재미있는 연구를 다양하게 수행하고 있습니다.2

그와 더불어 - 대학원생에게 현실적으로 가장 중요한 것은 협업하기 좋고 배울 점이 많은 지도교수를 만나는 것인데 - 매우 날카로운(acute) 시각을 가진 동시에 인품이 뛰어나서 배울 점이 많은 조성준 교수님과 함께 연구할 수 있다는 장점!이 큰 연구실입니다. 조성준 교수님께서는 각 학생이 관심 있어하는 영역에 대한 자유로운 연구를 할 수 있게, 언제나 전폭적인 지지를 해주십니다.

데마랩에 대해 관심 있거나, 궁금한 점이 있는 분은 댓글이나 제 트위터 계정으로 언제든 연락주세요!
(특히 여자 후배님들은 대환영입니다 ㅎ)

Contents migrated from tistory on 2013-03-18.

  1. 인공 지능에 대해서는 스티븐 스필버그의 영화도 있었죠? 이 영역은 다시 “인지 과학(cognitive science)”과도 연계가 된다고 볼 수 있어요. 

  2. 그 동안 제가 연구실 생활을 하면서 다뤄본 다양한 데이터를 여기에서 보실 수 있습니다.