본문 바로가기
데이터 과학 시리즈/직장인을 위한

데이터 사이언스란?

by Career hacker 2021. 3. 30.
반응형

데이터 사이언스는 생활 속 문제를 데이터를 이용해 해결하는 방법입니다. 데이터 사이언스는 통계학, 데이터 마이닝, AI 등 다양한 학문이 결합해 만들어졌습니다. 데이터 사이언스는 경험에 기초한 문제해결과 다릅니다. 경험에 기초한 문제해결은 전문가나 경험자에 의존합니다. 하지만 데이터 사이언스는 기록된 데이터를 분석해 보다 객관적으로 문제를 해결합니다.

1. 데이터 사이언스란?

데이터 과학은 우리 생활 속 현상을 통계학, 데이터 마이닝, 기계학습 방법 등을 통해 분석하고 이해하는 과학적 방법입니다. 데이터 과학은 생활 속 다양한 문제를 데이터에 기초해 해결합니다. 예를 들면, 다음과 같은 문제를 해결할 수 있습니다.

  • 어떤 상품이 서로 같이 많이 팔릴까?
  • 사람들은 어떤 경로로 우리 매장을 방문할까?
  • 코로나 백신은 정말 효과가 있을까?
  • 신라면 중량은 정말 120g일까?
  • 어떤 고객이 우리 가게를 다시 찾을까?

데이터 과학은 문제 해결 도구입니다. 데이터 과학은 생활 속 현상을 분석하고 이해합니다. 하지만 그 목적은 단순히 현상을 이해하는 것이 아닙니다. 데이터 과학은 현상을 이해하고, 분석해 문제를 해결하는 것입니다. 먼저 데이터 기반 문제 해결과 경험 기반 문제 해결 간 차이를 알아보겠습니다.

2. 데이터 기반 vs 경험 기반 문제해결

<그림 1> 문제 해결 프로세스 비교

데이터 기반 문제 해결은 수집된 데이터를 분석해 얻은 통찰(insight)을 이용합니다. 문제 유형에 따라 데이터 기반 의사결정에 온전히 의존하는 경우도 있지만, 많은 경우 의사결정 지원 역할을 수행합니다.

예를 들면, 보험사기탐시시스템(I-FDS; Insurance Fraud Detection Systems)은 사기 의심 피보험자나 청구건에 대해 높은 사기 스코어를 할당합니다. 하지만 스코어가 높다고 바로 사기로 단정하지 않습니다. 스코어가 높은 건은 조사인력을 보내 실제 보험사기인지 확인합니다. 그 결과 신고나 감에 의존하던 조사 대상 선정에 데이터 기반 의사결정 결합된 것입니다.

2016년, 세기의 대결이라고 불리는 이세돌 9단과 알파고 간 대국이 있었습니다. 이세돌 9단은 결국 알파고에게 패배하고 말았습니다. 그후 대중은 인공지능이 지적 영역에서 사람을 넘어 설 수 있다는 것을 깨달았습니다. 그 결과 기업은 딥 러닝 같이 의사결정 구조를 알 수 없는 블랙박스 모형도 사용하기 시작했습니다.

권력은 지금 전문가에서 데이터로 이동하고 있습니다. 과거 전문가 집단이 갖고 있던 전문성은 철옹성 같이 넘기 힘들었습니다. 하지만, 데이터 과학이 발전하며 전문가보다 더 정확한 인공지능이 등장했습니다. 그 결과 기업과 개인은 데이터 활용 능력에 따라 경쟁력이 좌우되는 세상을 마주했습니다.

3. 직장인은 왜 데이터 과학을 배워야 할까요?

직장인이 데이터 과학을 배워야 하는 이유는 크게 세 가지가 있습니다.

첫 번째, 핵심은 전문성이며, 데이터 과학은 도구이기 때문입니다. 데이터 과학은 통계나 머신러닝 같은 스킬만 알아서는 제대로 사용할 수 없습니다. 분야 전문성이 필요합니다. 분야 전문성은 여러분이 일상에서 하는 일을 말합니다. 마케팅 담당자에게 전문성은 마케팅에 대한 지식, 자사 제품에 대한 이해 등이 있습니다. 통관심사를 하는 사람에게 전문성은 어떤 물건이나 업체가 주로 탈세를 하고, 수입품은 어떤 경로와 절차로 이동하는지와 같은 업무에 대한 이해입니다. 데이터 분석을 잘하기 위해서는 전문성은 기본입니다.

두 번째, 완전한 데이터 수집으로 데이터 기반 의사결정이 고도화될 것입니다. 정부 주도로 실행되고 있는 마이 데이터 사업을 통해 사업자로 등록된 회사는 우리 고객이 다른 회사에 남겼던 흔적까지 수집할 수 있게 되었습니다. 보다 완전한 데이터가 수집되면 가치 있는 분석이 가능합니다. 예를 들면, 통신사 정보가 은행과 결합하면 은행은 고객 라이프 스타일에 맞는 새로운 금융 상품을 만들 수 있고, 추천할 수 있습니다. 통신사 역시 고객 재무 상황을 알 수 있기 때문에 요금 미납 가능성을 예측하거나 추가 가입 여력 등을 추정해 추가 판매 대상을 정교화할 수 있습니다.

세 번째, 데이터 수집 단위는 점점 짧아질 것입니다. 스마트 카 스마트 시티 등 추진되고 있는 많은 '스마트'한 사업이 활성화되면, 현재와는 비교할 수 없는 실시간 데이터가 대량으로 수집될 것입니다. 수집 데이터가 현상을 충분히 설명할 수 없는 경우, 데이터 기반 의사결정은 지식과 경험을 이길 수 없습니다. 하지만 현상을 설명하기에 충분한 정보가 수집되면, 경험 기반 의사결정은 데이터 기반 의사결정을 이길 수 없습니다.

과거에는 완전하고 연속성 있는 데이터 수집에 한계가 있었습니다. 고객을 360도로 살핀다는 것은 현실적으로 불가능했습니다. 또한 고객 접점에 있는 직원의 결정이 때론 더 정확했습니다. 하지만 앞으로는 보다 완전하고, 연속성을 갖는 다양한 데이터가 한 자리에 모이게 될 것입니다. 그 결과 데이터 활용 능력이 기업의 미래를 좌우하는 매우 큰 기준이 될 것입니다.

그럼 우리는 어떻게 해야 할까요? 아직 늦지 않았습니다. 지금부터 차근차근 다가올 미래를 위해 데이터 과학의 도구를 익히고 데이터 리터러시를 높여 나가는 것이 중요합니다. 기업 의사결정 체계도 앞으로 많이 바뀔 것으로 예상됩니다. 지금은 주어진 데이터를 이용한 서비스에 중심이 쏠려있습니다. 하지만 앞으로는 단순 서비스에서 확장된 예측과 분석이 보다 중요해질 것입니다. 그때는 데이터 활용 능력이 있는 사람과 그렇지 않은 사람 간 격차는 불과 20~30년 전 컴퓨터를 활용할 수 있는 사람과 그렇지 않았던 사람만큼 큰 차이를 갖게 될 것입니다.

반응형

댓글