본문으로 건너뛰기

데이터 정제 / 가공 (데이터 시각화에 관해 2)

· 약 4분
jun

데이터 정제 / 가공이란?

1. 기준 데이터 형태 정하기

Raw데이터!

→ 엑셀 형태 데이터에요. json같이 쉼표(,)로 구분되는 데이터도 있지만 엑셀 형태 데이터가 가장 범용적이고 편리합니다.

사실 어떤 데이터 형태로 구축할지 정하기는 일하는 사람 나름이지만, ‘데이터 시각화’가 목적이라면 엑셀 형태 데이터로 구축하는 것은 필수적이라고 생각해요 (제 생각입니다 ㅎㅎ,,)

2. 기준 데이터로 데이터 정리

각 데이터마다 기준이 될 수 있는 데이터가 있을거에요. 아래는 예시입니다.

데이터 종류설명기준
user datauser id, loginstamp, 접속 도시 등user id
sales datacustomer id, Purchasing, 재구매율user id
platform dataUser token, DAU, WAU, Retentionuser id
  • user data는 아마 user id가 명확할거에요. 그러나 그 외의 데이터에서는 형태가 다를 수 있습니다.

    • Sales data에서는 sales 고객 id를 사용할 수도 있어요.
    • platform에서는 고유의 user token으로 분류할 수도 있어요.
    • → 3개의 데이터세트에서 user id의 형태를 통일합니다!
  • 예시

    • User data user id: 655
    • Sales data Customer id: C123
    • Platform data User token: xcd3223

3. 기준 데이터로 변환

  • 사실 이 부분이 데이터 시각화에서 가장 어려운 부분이에요.

  • 단순히 본인만 일을 해서는 불가능하고, 조직에서 ‘데이터 기준점’에 대한 기준 정책이 설립되어야 합니다.

    • 그래서 조직에 왜 이 작업이 필요한지, 그리고 어떤 기준이 세워져야 하는지 설득하는 과정이 전부에요.
  • 이 단계에서 조직에 DDD (Data Driven Decision)의 중요도를 각인시켜야 합니다.

  • 제 방식을 공유드릴게요

    • 기업은 결국 돈을 버는 조직이죠. Sales, CX, CS, Product, Marketing 등 모든 부서가 직접적이진 않더라도 결국 매출이 목표인 게 맞아요. 데이터 시각화는 돈 버는 방법을 위한 가이드북이라고 생각해요. DDD가 잘 정착된 기업의 의사결정은 아래의 의사결정 flow를 가지고 있습니다. (가설 수립 → 실행 → 검증 → 리뷰) ’데이터 시각화’를 통해 현황을 보는게 아니에요. 데이터 시각화를 통해 가설을 수립하고, 실행하고 검증하고, 리뷰합니다. 객관적인 의사결정 도구인 거죠.

    • 조직에 이러한 내용을 설득할 때 핵심은 아래는 제가 설득 PT 때 발표했던 내용 중 일부입니다.

      ” 기업의 목표는 매출이 맞습니다. 우리는 효과적으로 매출을 내고 있을까요? 고객사가 왜 수주 계약을 결정했는지, 우리의 고객들은 어떻게 우리 서비스를 쓰고 있는지 알지 못합니다. 그냥 우리가 열심히 했지, 우리 서비스가 좋았지 와 같은 말들만 할 수 밖에 없어요. ”고객을 잘 안다” 는 단순 고객 이해로 끝나는게 아니라 기업 측면에서 수익 다변화 및 Up-selling에도 활용할 수 있습니다. 그들이 필요한 게 무엇인지, 만족하고 있는 게 무엇인지, 불만족하는 건 무엇인지 직설적으로 저희는 어떻게 하면 돈을 더 받아낼 수 있을지 알 수 있어요.

4. 기준 데이터로 변환 완료

  • 이젠 Raw 데이터 형태로 각 데이터마다 기준점(대표될 수 있는) 데이터의 셋업이 모두 완료되었습니다!
  • 이제 데이터 기준점들을 통해 데이터를 연동하고 통합적인 데이터를 구축할 수 있어요!