insight 빅데이터 시대, 데이터그래픽의 중요성 2015.04.27

빅데이터 시대. 데이터그래픽의 중요성

중국 남북조시대(南北朝時代) 양나라에 장승요라는 인물이 있었다. 장군과 태수 벼슬을 지낸 장승요가 벼슬을 사직하고 그림만 그리고 있을 때다. 어느 날 안락사란 절에서 절 벽면에 용을 그려달라는 부탁을 받았다. 장승요가 붓을 든 후 시간이 갈수록 하늘로 솟아오르려는 용들의 모습이 선명하게 나타나면서 사람들은 그 솜씨에 감탄을 아끼지 않았다. 그런데 이상한 일이 하나 있었다. 바로 그림은 완성되었는데 용의 눈이 없었던 것이다. 이상하게 여긴 사람들이 그에게 물었고, 장승요는 이렇게 대답을 했다.

“내가 용의 눈을 그려 넣으면 용이 하늘로 날아가 버릴 것이오.”

그러나 사람들은 믿지 않았고 용의 눈을 그려 넣을 것을 재촉했다. 결국 장승요는 그 가운데 한 마리의 용에 눈을 그려 넣은 동시에 갑자기 벽면을 박차고 솟아오른 용 한 마리가 구름을 타더니 하늘로 날아가는 것이다. 이때부터 중요한 일의 마지막 마무리를 해 넣는 것을 화룡점정(畵龍點睛)이라 부른다. 즉 가장 핵심이 되는 부분을 마무리함으로써 일을 완벽하게 마친다는 뜻이 화룡점정(畵龍點睛)인 것이다.

정보량이 매년 기하급수적으로 증가하는 ‘빅데이터시대’에 데이터의 활용과 이해는 매우 중요하다. 특히 데이터를 해석할 수 있도록 마지막 그 의미를 쉽게 표현하는 작업은 바로 용의 눈에 눈을 그려 넣는 ‘화룡점정’ 과 같은 의미라 할 수 있다. 수많은 숫자가 지닌 의미, 데이터의 상관관계를 나타내는 그래프, 특정 숫자를 언급하기 그려 넣은 표는 보는 최종 데이터 소비자가 그 가치를 정확히 발견할 수 있도록 제대로 분석하고 구성되어 나타내야 한다. 데이터를 좀 더 명확하고 쉽게 전달할 수 있는 방법이 무엇인지 ‘데이터그래픽’의 활용방법과 사례를 함께 알아보자.

 

현장 근무자의 언어로 표현해 주는 데이터그래픽

아무리 데이터분석을 잘 해도 이를 활용하는 사람들이 데이터 해독을 할 수 없다면 무용지물이다. 데이터분석가의 손을 거쳐 나온 주옥같은 분석자료도 그 의미를 제대로 이해할 수 없다면 아무 필요가 없다는 뜻이다. 영업현장 근무자가 데이터가 의미하는 정보를 바로 이해할 정도로 표현하는 것이 무엇보다 중요하다.

유명 빵집프랜차이즈인 파리바게뜨는 과거 매출 기록을 이용하여 날씨에 따라 빵 종류별 예상 판매량을 알려 주는 시스템을 운영하고 있다. 매출 정보와 기상 정보라는 방대한 데이터를 분석하고 활용하는 ‘빅 데이터(big data)’ 기술을 매장 영업에 활용한다. 특히 매장 모니터로 보는 화면은 영업 매장에서 쉽게 이해할 수 있도록 UI를 설계하였다. 빅데이터로 산출된 데일리(Daily) 영업전술을 시각화(그림형태)하여 초보 매장 직원이라도 판매방법을 쉽게 알수 있도록 한 것이다.

파리바게트 모회사인 SPC 그룹은 식품업계에서 처음으로 ‘날씨 판매 지수’를 만들었다. 최근 5년간 전국 169개 지점의 기상관측 자료와 10억 건 이상의 점포별 상품 판매 데이터를 분석한 자료는 전국 3,100여 파리바게뜨 점포 단말기에 제공하고 있는데 시스템을 도입한 후 파리바게뜨는 물류센터 재고 일수는 15일에서 7일로 감소, 매출은 30% 증가했다고 한다. 삼각 김밥·샌드위치처럼 날씨에 영향을 받고, 유통기간이 짧은 제품의 경우 폐기량이 40% 줄었다.

그림1그림1. 파리바게뜨가 데이터분석 자료를 ‘데이터그래픽’으로 만들어 제공 중인 화면

그림2는 매니저가 계산대 단말기 화면을 누르면 뜨는 ‘일별 날씨 판매지수 최대 변동’ 화면이다. 생크림 케이크 항목 옆에 ‘토요일 50.15%, 일요일 27.15%’ 같은 숫자가 함께 뜬다. 구체적인 ‘데이터+인포그래픽’으로 별도의 교육 없이 쉽게 보기만 하더라도 매일매일 영업 전략을 세울 수 있도록 한 것이다. 실제 SPC는 날씨 지수 도입 한 달 만에 조리빵 매출이 30%나 늘었다고 한다.

그림2그림2. 매장 포스시스템 화면

 

일본 창조산업 통계를 데이터그래픽 방식으로 표현

‘데이터그래픽’과 ‘데이터시각화’는 몇 가지 차이가 있다. 모두 그래픽이라는 전달방법을 선택하지만 제작자의 주관적 판단이 가미돼 데이터의 관계를 재밌게 묘사한 것이 데이터 그래픽 이라 할 수 있다. 인포그래픽에서 데이터를 다루는 경우가 상당히 많으므로 데이터그래픽에 대한 공부와 연구를 별도로 하는 것이 중요하다. 이에 반해 ‘데이터시각화’는 데이터간 상관관계를 객관적 사실 자체로 강조하고자 하는데 있다. 기계가 분석한 통계 값을 약간의 그래픽으로 만 표현해 주기도 한다. 처음 데이터를 보면 무슨 의미인지 한참을 봐야 하는 경우도 있다. 따라서 데이터에서 가치를 찾는 것은 사용자 개개인의 몫인 셈이다.

아래 그림은 ‘데이터그래픽’과 ‘데이터시각화(Data Visualization)’를 모두 포함하고 있는 인포그래픽이다. 일본 정부가 산업 전체에서 창조산업이 차지하는 비율이 어느 정도인지 파악할 수 있도록 실시간으로 데이터를 업데이트해서 볼 수 있게 한 것이 특징이다.

그림3그림3. 일본 정부에서 2009년 보유한 산업 지표를 기준으로 만든 창조산업 현황
(출처 : www.tsutagra.go.jp/tsutagra)

해당 데이터 그래픽은 공동 데이터에 도넛+막대 그래프를 시각화해 웹 기반으로 만들었는데 일본 각 산업의 종업원수 및 부가가치와 그에 대한 창조 산업이 차지하는 비율을 웹에 표현했다. 일본 정부에서 정한 산업별 구분을 동심원 상에 분류하고 각 산업별 종업원 수를 기준으로 했다. 중심에서 바깥으로 갈수록 산업 구분을 세세하게 표현하였다. 또한 원 바깥쪽 막대의 높이는 2009년도 각 산업 부가가치 규모에 대응하고 있다. 웹 버전 도넛에 마우스 포인터를 위치하면 자세한 정보를 볼 수 있다. 해당 그래픽을 통해서 보면 일본은 여전히 종업원 수 및 부가가치에서 제조업이 차지하는 비중이 높은 것을 알 수 있다. 이것이 전달하고자 하는 데이터 그래픽의 핵심메시지다. 만든 제작자와 보는 사람 모두 이 핵심 메시지부터 파악하는 것이 중요하다. 한국 정부가 공공데이터 개방을 적극적으로 추진하고 있는 상황에서 공공기관 등에서 참고할 만한 데이터 그래픽이다.

독립변수와 종속변수를 그래픽에 표현하는 방법

그림은 수만 개의 언어를 대신한다. 하지만 이것은 보는 사람이 그 그림을 해독할 수 있어야 한다는 조건이 전제된다. 데이터 그래픽에서 가장 중요하게 생각해야 하는 부분이 바로 그래프다. 숫자와 숫자간의 관계에 대한 정보를 전달하기 위해 의도적으로 만들어진 그림이 바로 그래프다. 일상생활에서 가장 흔하게 접하는 그래프의 표현 방법을 정확하게 이해하는 것이야 말로 데이터그래픽을 제대로 이해하는 것이라 할 수 있다.

우리 주변의 많은 그래프가 아직도 인간의 시각적 지각과 인지 원칙을 고려치 않고 만들어지고 있다. 그래프는 숫자들 간의 한 개 이상의 관계를 묘사하는 시각적 표현 방법 중 하나다. 그래프에서 보여주고자 하는 패턴, 추이와 비교 등이 즉각적으로 이해될 수 있을 때 성공적인 그래프라 할 수 있다. 자료를 단순히 분석하기 위해서만 사용되는 데이터시각화 그래프와 달리 의사소통을 위해 사용되는 그래프는 시각적으로 매력적이고 관심을 끌 수 있도록 만들어야 한다. 독자들의 관심과 이해를 유도하기 위해 효과적으로 커뮤니케이션 하는 사례를 살펴보자.

그림4는 1950년대와 현재를 비교한 ‘비교형 정보 구조’를 가진 데이터를 그래프로 나타낸 경우다. X축 독립변수는 시간, Y축 종속변수는 무게를 나타낸다. 1950년대에 비해 현재 레스토랑에서 파는 햄버거, 프렌치프라이, 음료수 등의 값이 크게 증가한 것을 한눈에 살펴볼 수 있다. 이는 국민들의 건강과도 직결된다고 할 수 있다. 또한 선 그래프, 수직 막대 그래프로 표현하는 데 있어 해당 변수를 그림을 이용해 나타내고 있다. 그래프에 대한 표현 자유도는 데이터 시각화보다 비교적 자유롭지만 핵심은 제작자의 의도가 잘 전달되었는지 여부가 중요한 판단 기준이 된다 할 수 있다. 그림5는 대학생 음주로 인해 발생되는 위험을 사망, 성폭행, 상해, 폭행 등 4가지로 산출해 대학교 캠퍼스 기둥에 데이터를 나타낸 인포그래픽이다. 대학 캠퍼스 기둥을 상징적으로 사용한 것이 인상적이다.

 

그림4그림4. 비교형 정보를 익숙한 시각적 표현물을 활용해 나타낸 그래프
(출처 : 미국 질병통제예방센터)

 

그림5그림5. 대학에서의 음주로 인해 발생되는 주요 위험을 네 가지로 나타낸 수직 막대그래프
(출처 : www.stopalcoholabuse.gov)

 

창조적 표현방법. 그래프에 유머를 담아라!

데이터를 완벽히 편집(Editing)한 후 그래프를 그리는 것도 중요하지만 딱딱한 그래프 모양으로는 대중적인 관심을 이끌어 내기가 쉽지 않다. 그러므로 그래프를 다양한 방식으로 표현한 인포그래픽 사례를 살펴보면서 창조적 활용능력을 높이길 바란다.

그림6은 ‘미국 여성 대통령이 언제쯤 나올까?’라는 조사결과를 바탕으로 한 ‘스냅샷그래프’다. 대통령이 주로 연설할 때 사용하는 테이블 앞면의 로고 위에 ‘파이 그래프’를 만들어 넣은 것이다. 작은 데이터 그래픽의 경우 공간 활용성과 주목도가 특히 중요하므로 이런 방법을 추천해본다.

그림6-2그림6. 대통령 연설 테이블에 있는 로고를 파이 그래프로 활용한 스냅 샷 그래프

 

그림7그림7. 10대들이 자신의 부모 직업을 좋아하지 않는 비율을 나타낸 스냅샷 그래프

 

그림8그림8. 뉴욕을 방문한 방문객의 국적 비율을 소개한 스냅샷 그래프

 

위와 같이 구체적이고 정확한 숫자를 나타내기보다 상대적 양이나 크기를 비교할 수 있도록 그림 중심으로 그래프를 나타내는 것을 ‘시각표’ 라고 한다. 그래프의 가장 구조화 되지 않은 형태를 말하기도 한다. 데이터그래픽에서 초보자부터 숙련자까지 모두가 좋아하고 독자에게도 가장 친근하게 데이터를 전달하는 방법 중 하나다.

일반적으로 시각표는 데이터가 상대적으로 우위에 있는 영역은 밝은 배경을 사용하고 그렇지 않은 영역은 어두운 색을 사용한다. 사람들은 보다 큰 영역의 데이터를 먼저 지각한다는 사실을 활용할 필요가 있다.

 

데이터를 나타내는 상징 이미지로 묘사

시각표의 특징 중 하나는 바로 데이터에서 나타내고자 하는 요소를 상징할 수 있는 그림으로 묘사해야 한다는 것이다. 특정 지역에서 생산되는 과일의 양을 보여주는 그래프에서 과일나무의 높이 그림을 채택해 사용하는 것은 지각을 왜곡할 수 있다는 뜻이다. 이 경우 해당 지역의 과일 크기로 시각표를 나타낼 수 있는 것이다.

예를 들어 오렌지 생산량 추이를 나타내고자 하는 그래프를 그릴 경우 오렌지만을 사용하여 증가 추이를 표현할 수 있다. 그림9 와 같이 적절한 오렌지 이미지를 찾거나 그리는 것이 우선이다. 다음 X축은 연도를 나타내는 독립변수, Y값은 생산량을 나타내는 종속변수다. 그래프에 오렌지를 수직으로 복사해 표시할 수 있다. 여기서 주의할 점은 그림으로 나타낸 그래프라 할지라도 숫자를 나타내는 그래프이므로 레이블 단위나 정확한 숫자 표시가 중요하다. 이런 데이터그래픽 시각표는 그래픽 보도자료, 보조적 그래픽 데이터, 모바일 등에서 활용하면 더욱 유용하다.

그림9그림9. 오렌지 이미지를 활용한 오렌지 생산량 추이 그래프

데이터그래픽의 표현 방법은 실 공간 속에도 이루어진다. 실 공간 속에서 우리가 이야기하려는 메시지는 곧 ‘데이터’라 할 수 있다. 예를 들어 과일가게에서는 과일이 상품이자 데이터며, 빵가게는 빵이 상품이자 데이터다. 이제는 공간 속에 있는 제품에도 가치를 넣어 하나의 고급 데이터로 승화시켜 소비자를 맞이해야 할 때가 온 것이다.

그림10은 국민 한 사람이 CO2를 얼마나 배출하는지 데이터를 분석해 국가별 순서를 보여주는 데이터그래픽이다. 막대 그래프 대신 발의 크기, 국가 이름 대신 국기 이미지로 데이터를 그래픽으로 표현하고 있다. 이벤트나 캠페인을 할 때 시도하면 효과적인 ‘그래프 커뮤니케이션’의 좋은 사례라고 할 수 있다. 단순한 보드 위에 막대 그래프로 숫자를 표현하는 것보다 훨씬 전달력이 높다. 실 공간 속에서의 데이터 그래픽 특징은 일단 주목도가 높아야 한다. 정형화 된 ‘막대그래프’로는 사람들의 주목을 받기 어렵기 때문이다. 발에 표현한 국기로도 해당 나라가 어디인지 인지할 수 있고, 버블 그래프의 크기로도 탄소 배출량의 상대적 비교가 가능하다.

그림10그림10. 풋 프린트(Foot Print)로 나타낸 국가별 탄소 소비량
(출처 : www.oxfam.org.uk)

 

15년간의 영업 숫자를 데이터그래픽으로

스타벅스코리아가 최근 개점 15주년을 기념해 만든 데이터그래픽 상품들이다. 텀블러, 컵홀더, 상품 카드 등에 동일하게 적용 하고 있다. 매장수, 아메리카노 판매량, 고용인력수 등 6가지의 데이터를 먼저 분석해 각각의 데이터를 상징하는 그래픽을 함께 넣었다. 단순한 감성적 정보가 아닌 15년간 영업을 하면서 축적된 데이터가 중심인 것이다.

그림10-1그림10-1 스타벅스코리아가 개점 15주년으로 만든 데이터그래픽 유형의 상품들

 

정확한 그래프 표현을 위한 작성 단계

데이터그래픽의 핵심은 그래프다. 시각표와 같이 일종의 자유도가 높은 그래픽을 그리는 것보다 중요한 것은 체계적으로 그래프를 표현하는 방법을 공부해야 한다. 또한 그래프는 매우 과학적인 표현 방법이다. 그 밑바탕에는 데이터를 독자의 입장에서 계산하는 과정이 반드시 들어간다. 그래프를 보는 독자가 수학을 하게 해서는 안된다. 수학을 하게 한다는 것은 독자가 데이터가 의미하는 것이 무엇인지 데이터 속의 숫자를 계산하고 다시 살펴보는 과정을 하도록 하는 것이다. 즉, 한눈에 보면 무슨 의미인지 이해하도록 그래프를 사용하는 것인데 이미 그 본연의 가치를 잃어버린 셈이다. 데이터 분석가 혹은 인포그래픽 제작자는 반드시 독자를 위해 그래프로 옮기기 전 데이터를 필터링해 쉽게 이해하도록 정렬하는 것이 우선이다. 그래프를 올바로 사용하기 위한 기준은 바로 보는 사람의 입장에서 생각하는 것이다. 그래프를 효과적으로 그리기 위해서는 간과해서는 안되는 프로세스를 소개한다.

1단계. 리서치
가장 최근 데이터와 가장 신뢰도 높은 데이터를 선택해야 한다.

2단계. 데이터 필터링(편집)
– 핵심 메시지를 뽑아야 한다.
– 나타내고자 하는 필수 데이터를 독자 입장에서 필터링한다.

그림11그림11. 데이터 필터링

같은 데이터라도 그 차이를 살펴볼 수 없다면 해독의 어려움이 따른다. 그림11과 같이 판매대수라는 데이터를 다시 증가율로 재가공 하여 기업 간 차이를 명확하게 살펴 볼 수 있도록 했다.

3단계. 구성 단계
– 데이터에 맞는 타입의 그래프를 선정해 제작에 들어간다.
– 그래프 y값, x값 구간 선정, 단위, 베이스라인 등을 확정한다.
– 핵심 메시지에 적합한 컬러나 타이포그래피를 나타낸다.

4단계. 리뷰 단계

그림12그림12. 데이터 리뷰단계

데이터를 검수하고 원천 데이터와 비교하는 과정을 다시 한 번 더 거친다. → 그래프가 독자 입장에서 쉽게 이해되는지 확인한다. → 그래프에 이상점(극단값)이 있는지 확인한다. → 전문가에게 추가 보완할 부분이 있는지 확인한다.

특히 리뷰 단계를 귀찮다고 무시하고 그래프를 마무리 짓는 경우가 많은데 프로와 아마추어의 차이는 바로 리뷰 단계를 업무 시스템에 습관처럼 활용하는 데 있다. 모든 데이터가 정확하더라도 그래프 한 곳에서 오류가 생기면 전체 데이터는 오류로 치부되기 때문이다.

 

비주얼 데이터 솔루션을 활용한 데이터그래픽

데이터그래픽을 나타낼 때 자동화 솔루션을 활용해 표현하는 방법도 있다. 말이 자동화지 사실상 해당 기술을 가진 회사에서 사람들이 직접 수많은 데이터의 속성을 분석하고 여기에 맞는 다양한 그래프를 사전에 제작 했기에 가능하다. 미국에는 약 30여개 이상의 크고 작은 빅데이터 분석 솔루션과 그래픽 프로그램을 제공하는 기업들이 있다. 대부분 다국적 기업이지만 이 중 벤처 기업에서 출발해 1조원의 시장 가치로 성장한 ‘타블로소프트웨어(Tableau software)’를 중심으로 소개한다.

‘타블로’의 기업 모토는 “우리는 사람들에게 보고 이해할 수 있는 데이터를 제공하는 것이다. (We’re on a mission to help people see and understand data)” 우리나라에서는 좀 낯설지만 전 세계에 지사를 두고 있으며 매년 성장을 하고 있는 ‘비주얼 데이터’ 기업이다. 비즈니스 파트너는 금융사부터 언론사까지 다양하다. 최근 국내 굴지의 S기업은 ‘Tableau’의 도움을 받아 자체 분석 솔루션을 구축한 사례도 있다.

비주얼 데이터 분석 솔루션의 일반적 특징은 바로 사람이 직접 데이터를 기반으로 그래픽을 만드는 것이 아니라 소프트웨어의 힘을 빌어 다양한 형태의 데이터 그림을 그릴수 있다는 데에 있다. 특히 인터랙티브 그래프를 그리는데 최적화 돼 있다. 컬러, 데이터 선별, 동적 요소를 넣은 상태로 데이터 시각화를 할 수 있는 것이다.

그림13그림13. Tableau사의 비주얼 데이터 분석 솔루션
(출처 : www.tableausoftware.com)

많은 미디어 기업들이 데이터그래픽 분석 솔루션을 활용해 콘텐츠를 제공하고 있다. 월스트리트저널은 ‘Tableau’에서 제공하는 인터랙티브(Interactive) 데이터 시각화(Data Visualization) 솔루션을 가지고 ‘기업별 성장률’ 기사를 제공하고 있다. 단순히 한 장의 통계를 인포그래픽으로 표현하지 않고 읽는 독자가 원하는 정보를 직접 체크하여 데이터를 뽑아 볼 수 있도록 했다. 이러한 실시간 비주얼데이터 분석 솔루션을 통해 주제별, 회사별, 형태별로 인포그래픽을 제작 종이와 웹용 유료 리포트에도 활용할 수 있다. 따라서 ‘비주얼 데이터 솔루션’을 사용하는 용도에 따라 수십 수백 장의 인포그래픽 상품으로 재탄생시킬 수 있다는 이야기다. 기업 연구소, 정부산하기관, 금융사, 컨설팅사, 리서치사 등 다양한 곳과 접목이 가능해 수익 다변화에 아주 유용한 방법이다.

그림14그림14. 월스트리트 저널이 제공하는 데이터그래픽

이 밖에 영국의 The Economist는 Interactive Data Graphic Contents, 블룸버그는 Visual Data 코너를 각각 제공하고 있다.

그림15그림15. 이코노미스트가 월드컵 골 데이터를 분석해 이를 동적인 데이터그래픽으로 만든 사례

그림16그림16. 블룸버그에서 만든 산업별로 시장에서 선두를 지키는 기업들을 분석해 수평막대그래프로 나타낸 사례

 

좋은 데이터그래픽의 조건은?

와튼 비즈니스 스쿨에서 조사한 결과에 의하면 1986년 보다 현재의 인간은 5배 이상의 정보를 접촉을 한다고 한다. 즉 우리 감각기관이 고통을 당하고 있는 것이다. 하루에 사람들은 일과 놀이를 통해 뇌에서 34기가바이트의 정보를 소비를 하고 있다. 감각기관의 고통 감소를 위해서 비주얼 콘텐츠로 제공해야 하는 이유가 여기에 있는 것이다. 또 정보분석가들이 조사한 바에 의하면 텍스트+이미지 정보는 텍스트 정보만 제공할 때 보다 약 323% 이상의 효과를 보인다고 한다. 따라서 데이터의 그래픽은 전달력을 높이는데 필수불가결한 커뮤니케이션 전달방법인 셈이다.

빅데이터 시대에서 수 없이 생산되는 분석정보 역시 통계와 분석의 절차를 거쳐 최종 목적한 바를 달성하기 위해서는 최종 데이터를 판단하는 사람이 쉽게 이해할 수 있도록 하는 사용자 언어로 풀어주는 것이 필요하다. 쉬운 문제인 듯 하지만 표현의 문제는 ‘창의력과 분석력’을 동시에 요구하고 있어 작업자의 만만치 않은 수고를 필요로 한다.

 

좋은 데이터그래픽은 ① 제작자와 독자를 연결하고, ② 독자의 관심을 시각표현으로 집중시키고, ③ 이해와 인지도를 높이는 역할을 한다.

데이터그래픽은 인포그래픽이나 데이터 시각화 과정에서 가장 많이 사용하기도 하지만 가장 잘못 사용되는 분야이기도 하다. 멋진 비주얼도 중요하지만 전달하고자 하는 데이터는 형태와 의미가 시각적으로 함께 일치가 되어야 가장 이해하기 쉽다. 정확하고 올바른 데이터 표현 방법을 선택하는 것이야 말로 데이터그래픽이 갖는 매력인 것이다.

 

blog-이수동3