본문 바로가기

Technology

빅데이터에 이어 생활데이터의 시대가 온다

빅데이터는 이제 우리 생활에서 떼려야 뗄 수 없는 것이 되어버렸습니다. 일상생활 속의 문제를 해결하거나 불편한 점을 개선해주는 역할을 하면서, 빅데이터는 점점 더 우리의 일상과 긴밀한 관계를 유지해 가고 있습니다. 하지만 빅데이터가 모든 문제를 해결해 줄 수는 없습니다. 우리의 생활에서 사소하게 일어나는 문제에 대해서는 특히 더 그렇습니다.

그래서 주변 생활 속에서 발생하고 쌓이는 데이터, 즉 ‘생활 데이터’가 필요하게 되는 것입니다. 생활 데이터는 데이터가 주는 본질적인 의미보다 기술과 장비에 치중하게 되는 요즘의 ‘빅데이터 세태’에 반하여 나온 개념입니다. 우리 주변에서 발견할 수 있는 아주 작은 데이터라도 그것을 활용하고 이해하는 과정이 중요하다는 것을 강조하는 것이지요. 관련 전문가가 아니더라도, 또는 많은 양의 정보를 수집하는데 시간과 비용을 들이지 않아도, 내 주변에서 항상 존재하고 있는 생활 데이터를 통해서 우리는 주도적으로 문제 상황에 맞설 수 있습니다.


생활 데이터가 된 당뇨병력 기록 차트, 사진 출처



생활 데이터의 활용 사례


1. 통계로 튀기는 치킨

  2015년 통계청에서 주최한 통계 활용 수기 공모에서 최우수상을 차지한 ‘통계로 튀기는 치킨’은 치킨집을 하는 아버지를 돕기 위해 매일 매일의 닭고기 수요를 예측하는 모델을 만들어 활용했던 대학생 허성일 님의 이야기입니다.





약 6개월의 관찰 끝에 계절, 날씨, 이벤트 등의 주요 변수를 얻고, 2013년 8월 판매 예상량과 실제 판매량을 데이터화 시킨 ‘가중치 닭고기 소모량 통계’를 만들었습니다. 또한, 효율적 판매를 위해 고객들의 치킨 구매 패턴을 분석하였습니다. 기호에 따라 일정한 구매 패턴을 보인다는 것을 알게 되었으며, 이는 전체 매출의 15%를 차지한다는 결과를 얻어냈습니다.


어쩌면 무시하고 넘어갈 수도 있었을 영업 데이터와 단순한 변수로 의미 있는 결과를 도출하고 치킨집에 새로운 활기를 줄 방안을 마련할 수 있었습니다.



2. 당뇨병 관리


자기 주변의 데이터 활용 사례와 방법에 대해 공유하고 실습으로 데이터 분석 능력을 키우는 목적의 모임인 ‘생활데이터 그룹’에서 소개한 서영부 님의 사례입니다.

서영부 님의 장모님께서는 당뇨병 진단을 받으시고 새로운 식이요법을 적용하고 매일 혈당을 측정하는 일에 적응하는 데 많은 어려움을 겪고 계셨습니다. 공복 시 혈당은 120 이하, 식후 혈당은 160 이하를 유지한다는 목표를 세우고 아침 공복 1번, 식후 3번의 빈도로 측정을 시작하셨지만 이를 꾸준히 기록하는 것을 힘들어하셨습니다.



서영부 님께서 공유해주신 장모님의 혈당 기록표



이에 서영부 님은 장모님께 혈당관리를 위한 데이터 사용법을 가르쳐드렸습니다. 종이에 입력하시던 혈당 데이터를 엑셀에 옮겨 추이를 보여드리고, 추가로 데이터를 넣으시면 그래프가 그려지도록 만들어 드린 것입니다. 또한, 혈당 관리를 위해서는 어느 기준점 이하로 그래프가 내려가야 한다는 점을 이해시켜 드렸습니다.



서영부 님께서 공유해주신 장모님의 혈당 기록표 엑셀 버전


이를 통해 장모님께서는 측정하는 숫자와 목표 간의 관례를 이해하실 수 있었습니다. 더불어 서영부 님은 장모님께서 혈당관리에 필수적인 운동량을 채우실 수 있도록 미 밴드도 드렸습니다. 운동량의 기준을 설정하여 운동량을 수치를 통해 관리하실 수 있게 한 것입니다. 이렇게 간단한 도구를 사용하여 생활 속의 데이터를 시각적으로 이해하고 측정할 수 있습니다.



3. 터미널 롯데리아, 동네 맥도날드, 강남 버거킹?




 한 트위터 이용자의 말에서 착안하여, 전국의 롯데리아, 버거킹, 맥도날드, KFC 매장 수와 지역의 발전 수준과의 상관관계를 파악한 사례도 있습니다. 위의 방정식을 ‘버거지수’라고 하고, 2015년 1월 26일 각각의 홈페이지에서 얻은 매장 정보를 토대로 다음과 같은 결과가 만들어졌습니다.





강남과 서초에는 롯데리아보다 버거킹, 맥도날드, KFC가 훨씬 많으며, 다른 지역에서도 주로 ‘시내’권인 중구 지역이 버거지수가 높은 것으로 나타났습니다.

추가로 브랜드별 매장 분포도 파악하였습니다. 이를 통해 롯데리아 매장이 전국적으로 고르게 분포하는 것을 확인하였는데요. 이에 따라 인구밀도에 상관없이 롯데리아 매장 숫자가 고정적인 비율이라면, 버거지수와 인구밀도에도 상관관계가 있을 것이라고 가설을 확장하였습니다.


인구밀도와 버거지수와의 상관관계



시군구 경계로 지역을 단순화했고 유동 인구나 인구 구조의 등의 특징을 충분히 고려하지 못하였지만, ‘이렇지 않을까?’라고 생각했던 것을 생활 속에서 얻어 낼 수 있는 데이터로 증명하려고 한 좋은 사례가 될 수 있습니다.



생활 데이터의 실천


아직 어떤 생활 데이터를 활용하여 어떻게 분석해야 하는지 감이 잡히지 않는다면, 어디서부터 시작해야 할까요?



1. 문제에서 시작하기

생활 데이터로 직접 풀어보고 싶은 문제가 주변에 있다면, 문제를 정의해 보세요. 이를 통해 자신의 고민을 구체화하여 데이터 분석과 수집 방향을 설정할 수 있습니다.

내가 최근에, 혹은 지속적으로 가장 관심을 두는 문제는 무엇일까? 그 문제에 관련된 현상을 어떻게 데이터화할 수 있을 것인가? 관련된 데이터가 이미 어딘가에 존재하는가? 아니라면 어떻게 수집할 수 있을까? 그 데이터를 분석하기 위한 최고의 방법은 무엇일까? 이런 질문에 대한 답을 생각하는 과정에서 문제의 세부사항 및 필요한 생활 데이터의 모습을 구체화할 수 있습니다.



2. 데이터에서 시작하기

생활데이터 그룹의 김영웅 님은 정보 공개 청구로 얻은 지하철 인구 유입 데이터를 살펴보다가, 크리스마스이브에 잠실역 승하차 인원이 급증하는 것을 발견하였습니다. 이 데이터를 통해 휴일에 유동인구가 줄어드는 장소를 찾으면 붐비지 않는 곳에서 데이트할 수 있겠다는 생각을 하게 되고, 이는 슬로우 데이트라는 데이터 분석 프로젝트가 되었습니다.


김영웅님이 만든 기념일별 데이트지도



이처럼 최근에는 여러 분야에서 다양한 데이터가 공개되고 있습니다. 데이터 공유에 따른 투명성의 확보 및 열린 혁신에 대한 인식이 높아졌기 때문입니다. 더불어 스마트폰과 웨어러블 기기의 진화로 개인의 일상을 기록하는 라이프로깅(Life-logging)이 활발해 짐에 따라 데이터에 대한 접근성도 높아졌습니다. 이를 활용하여 생활 데이터의 분석을 시작해 볼 수 있습니다.


3. 도구에서 시작하기

데이터에 대한 관심만큼이나 데이터를 다루는 도구 및 기법도 넘쳐 나고 있습니다. 기초부터 공부하여야 쓸 수 있는 도구들도 많고, 분석에 필요한 언어도 많습니다. 또 어떤 데이터인지에 따라 여러 가지 분석 기법을 병행해야 하는 예도 있습니다. 따라서 자신이 활용할 수 있는 도구가 어떤 것이 있는지 파악하는 것도 중요합니다.

데이터양이 방대하고 분석이 일회성으로 끝나지 않는 데이터에는 고급 도구와 기법이 필요합니다. 하지만 기본적으로는 엑셀도 좋은 도구가 될 수 있습니다. 다른 프로그래밍 기반의 도구와는 달리, 시각적으로 데이터를 입력할 수 있고, 셀 단위의 분석을 통해 패턴을 찾기에 유용하기 때문입니다.



4. 기존의 분석에서 시작하기


다른 사람의 분석 결과를 살펴보는 것도 좋은 시작이 될 수 있습니다. 데이터 수집 및 분석, 그리고 결과의 전달 방식에 이르기까지 어떤 기법과 도구를 사용했는지 꼼꼼하게 살펴보면서 부족한 점을 채우고 자신의 방식으로 발전시킬 수 있습니다.

데이터 저널리즘을 접할 수 있는 FiveThirtyEigth는 이 사이트의 상당수의 기사에 사용된 데이터를 GitHub페이지에서 제공하고 있습니다. 자기 주변의 문제를 직접 데이터로 해결하는 생활 데이터를 실천하는 개인들의 커뮤니티인 Quantified Self의 다양한 발표 자료도 유용하게 활용할 수 있습니다.



맺는 말


  생활 데이터는 상대적으로 적은 데이터와 단순한 문제들로 이루어져 있어 모든 사람들이 접근하기 쉽고, 자신의 삶과 연관되어 흥미롭게 결과를 도출해 낼 수 있습니다. 또한 분석하는 사람이 주도적으로 자신 데이터를 활용하여 문제 상황에 접근할 수 있다는 점이 큰 장점입니다.


하지만 모든 데이터가 그러하듯이, 생활 데이터라고 자신의 주변에서 일어나고 있는 문제를 모두 해결해 줄 수는 없습니다. 오히려 데이터를 어떻게 다룰 것이며, 그것으로부터 도출된 것을 어떻게 활용할 지가 더 중요합니다. - ‘데이터를 잘 써먹을 수 있는 구체적인 방법’ 보러 가기

내 주변의 문제를 데이터로 해결하기 위해 필요한 것은 무엇인가? 스스로에게 물어보고 답을 찾을 때 생활 데이터의 시대를 맞이하였다고 할 수 있을 것입니다.



(생활 데이터의 특성 상 개인 정보를 활용하여 분석한 사례가 많습니다. 때문에 민감한 정보는 본 글에 담지 못하였으나, '생활 데이터 분석', '일상 데이터 분석' 등으로 검색하시면 더 다양한 사례를 확인하실 수 있습니다.)


참고: Jin Young Kim의 브런치, 통계청, 슬로우뉴스



by 수달 발자국