본문으로 건너뛰기

· 약 4분
jun

데이터 정제 / 가공이란?

1. 기준 데이터 형태 정하기

Raw데이터!

→ 엑셀 형태 데이터에요. json같이 쉼표(,)로 구분되는 데이터도 있지만 엑셀 형태 데이터가 가장 범용적이고 편리합니다.

사실 어떤 데이터 형태로 구축할지 정하기는 일하는 사람 나름이지만, ‘데이터 시각화’가 목적이라면 엑셀 형태 데이터로 구축하는 것은 필수적이라고 생각해요 (제 생각입니다 ㅎㅎ,,)

2. 기준 데이터로 데이터 정리

각 데이터마다 기준이 될 수 있는 데이터가 있을거에요. 아래는 예시입니다.

데이터 종류설명기준
user datauser id, loginstamp, 접속 도시 등user id
sales datacustomer id, Purchasing, 재구매율user id
platform dataUser token, DAU, WAU, Retentionuser id
  • user data는 아마 user id가 명확할거에요. 그러나 그 외의 데이터에서는 형태가 다를 수 있습니다.

    • Sales data에서는 sales 고객 id를 사용할 수도 있어요.
    • platform에서는 고유의 user token으로 분류할 수도 있어요.
    • → 3개의 데이터세트에서 user id의 형태를 통일합니다!
  • 예시

    • User data user id: 655
    • Sales data Customer id: C123
    • Platform data User token: xcd3223

3. 기준 데이터로 변환

  • 사실 이 부분이 데이터 시각화에서 가장 어려운 부분이에요.

  • 단순히 본인만 일을 해서는 불가능하고, 조직에서 ‘데이터 기준점’에 대한 기준 정책이 설립되어야 합니다.

    • 그래서 조직에 왜 이 작업이 필요한지, 그리고 어떤 기준이 세워져야 하는지 설득하는 과정이 전부에요.
  • 이 단계에서 조직에 DDD (Data Driven Decision)의 중요도를 각인시켜야 합니다.

  • 제 방식을 공유드릴게요

    • 기업은 결국 돈을 버는 조직이죠. Sales, CX, CS, Product, Marketing 등 모든 부서가 직접적이진 않더라도 결국 매출이 목표인 게 맞아요. 데이터 시각화는 돈 버는 방법을 위한 가이드북이라고 생각해요. DDD가 잘 정착된 기업의 의사결정은 아래의 의사결정 flow를 가지고 있습니다. (가설 수립 → 실행 → 검증 → 리뷰) ’데이터 시각화’를 통해 현황을 보는게 아니에요. 데이터 시각화를 통해 가설을 수립하고, 실행하고 검증하고, 리뷰합니다. 객관적인 의사결정 도구인 거죠.

    • 조직에 이러한 내용을 설득할 때 핵심은 아래는 제가 설득 PT 때 발표했던 내용 중 일부입니다.

      ” 기업의 목표는 매출이 맞습니다. 우리는 효과적으로 매출을 내고 있을까요? 고객사가 왜 수주 계약을 결정했는지, 우리의 고객들은 어떻게 우리 서비스를 쓰고 있는지 알지 못합니다. 그냥 우리가 열심히 했지, 우리 서비스가 좋았지 와 같은 말들만 할 수 밖에 없어요. ”고객을 잘 안다” 는 단순 고객 이해로 끝나는게 아니라 기업 측면에서 수익 다변화 및 Up-selling에도 활용할 수 있습니다. 그들이 필요한 게 무엇인지, 만족하고 있는 게 무엇인지, 불만족하는 건 무엇인지 직설적으로 저희는 어떻게 하면 돈을 더 받아낼 수 있을지 알 수 있어요.

4. 기준 데이터로 변환 완료

  • 이젠 Raw 데이터 형태로 각 데이터마다 기준점(대표될 수 있는) 데이터의 셋업이 모두 완료되었습니다!
  • 이제 데이터 기준점들을 통해 데이터를 연동하고 통합적인 데이터를 구축할 수 있어요!

· 약 4분
jun

데이터 수집이란?

1. 현황 파악하기

data-collection

데이터의 소스에 대해 먼저 파악합니다.

→ 세일즈? DB? 등등..

각각의 데이터 저장소에 아마 저장이 되고 있을거에요. 그러나, 저장이 안되고 휘발되는 데이터가 있을 가능성이 있습니다. 예시로는 DB의 로그인스탬프라는게 있어요. 데이터베이스의 용량은 한정적이기에 어떤 데이터는 특정 기간동안만 유지하고 이후에는 삭제되고는 합니다. 예시로 CCTV는 일주일정도만 저장되는게 있겠네요 ! 로그인스탬프: 유저 혹은 고객이 서비스에 방문한 기록을 시간 단위로 누적하여 기록을 말합니다.

저는 이 데이터가 꼭 필요했으나, DB에서는 이 값이 갱신되는 것을 확인했어요. 고객이 어제 접속하고 오늘 접속하면 DB는 가장 최근의 값인 오늘 접속기록만 갖고 있는 문제가 있었습니다.

DB 용량은 한정되어 있는 상황에서 어떻게 이 문제를 해결할 수 있을까요?

2. 데이터 기록하기

최고의 방법은 아니지만, 최선의 방법이기에 이런 방법을 선택했어요. 작업 방식은 이렇게 됩니다. (코딩을 할줄 알면 좋지만 못해도 괜찮아요)

  • DB의 구조 파악
    • DB에도 여러 종류가 있어요. 단체 혹은 기업에서 어떤 DB를 사용하는지부터 알아야합니다. 보통 PostgreSQL 혹은 MySQL일거에요.
    • 위 DB들의 장점은 테이블 형식으로 구성이 되어 있습니다. (엑셀과 비슷한 형태에요)
    • DB에 접속하면 해당 내용을 확인할 수 있고, 필요한 데이터의 컬럼 정보를 파악합니다.
  • 데이터 Automation or 연동
    • 핵심은, 데이터의 내용이 어떠한 곳으로 전송되고 기록되는거에요.

    • 저는 구글시트를 많이 활용합니다. 구글시트에서 제공하는 Apps script는 꽤 괜찮거든요!

    • 스크립트를 만들고 실행한뒤, 언제 스크립트가 실행될지 트리거를 설정해주면 됩니다.

      - 보통 Daily로 트리거를 만들어요!

    • 또 다른 방법은 자동화 툴을 사용하는 방법이 있어요. 권장

      • 아래 두가지 툴이 널리 쓰이고 있습니다.
        • Make (integromat)
        • Zapier
    • 일단 위 방법(스크립트)보다 간편합니다. 거의 모든 data automation은 위 도구들로 가능할거에요.

3. 데이터 권한 추가하기

  • 데이터를 분석 & 시각화하는 일은 보통 ’읽기’ 권한만 가지고 있으면 가능합니다.
    • ‘쓰기’ 권한은 데이터를 직접 수정 가능
    • ‘읽기’ 권한은 데이터에 접근하여 데이터 열람 가능
  • 다만, 자동화 툴을 사용한다면 자동화 툴에게도 읽기 권한 부여가 필요합니다.
    • AWS(amazon web service)를 사용하면 인바운드 규칙에 해당 자동화 툴 IP를 등록하는 작업이 있는데 !
    • 만약에 현업 업무에서 이게 필요하다면 개발팀 혹은 프로덕트팀에 IP 주소 알려드리고 이거 허용해달라 (인바운드 추가해달라) 하면 해주실거에요.
      • 어떤 IP를 허용해야하는지와 같은 매뉴얼은 자동화 툴에 자세히 안내되어 있습니다. 절대 복잡하지 않아요!

4. 데이터 수집 완료

데이터 수집이 잘 되고 있는지 확인하고! 잘 되고 있다면 이 단계는 끝이에요.

정리가 안되어 있어도, 데이터의 형태를 알아볼 수 없어도 괜찮아요!

핵심은 데이터가 휘발되지 않고, 기록되는 것입니다!

· 약 3분
jun

데이터 시각화란?

어떻게 쓰이나 !

  • 혹시 DDD라고 아시나요?
    • Data Driven Decision의 약어로 ‘데이터 기반 의사결정’을 뜻합니다.
  • 기업에서 새로운 기능을 기획하거나, 사업을 추진할때 데이터는 필수적인 요소인데요 !
    • 정량적인 데이터를 기반으로 최대한 객관적인 판단을 위해 위 작업이 필요합니다.
    • 고객에게 A가 필요할까? B가 필요할까? 와 같은 고민은 데이터를 기반으로 의사결정에 도움이 될 수 있어요!

어떻게 구성되나요?

  • 데이터에는 매우 다양한 종류와 유형이 있어요
    • 매출&계약 데이터 (Salesforce, Google Sheets 등)
    • 플랫폼 데이터 (Google Anlytics, GCP, DB 등)
    • 정성적 데이터 (notion, monday, Jira 등)
  • 기업의 모든 내용은 데이터로 측정되는게 중요해요!

어떻게 만드나요!

  1. 데이터 수집
    1. 데이터가 쌓이고 있지 않다면 데이터를 축적하는 작업부터 필요해요.
      1. 데이터는 어디서부터 오지?
      2. 어떤 방식으로 쌓아야할까?
      3. 지속가능한 데이터 수집은 뭘까?
  2. 데이터 정제 / 가공
    1. 데이터의 종류가 다양한 만큼 데이터는 통일된 형태로 존재하지 않아요.
      1. 데이터를 모두 raw data 형태로 변환합니다. (필수적인 작업은 아니에요!) 다만 시각화하고자 하는 데이터의 종류가 엄청 다양할때는 통일된 형태 (raw)형식으로 수집합니다. Raw Data 형식이란: 엑셀이 적합한 예시가 될 수 있겠네요! 행과 열로 구분된 데이터입니다.
  3. 데이터 기준점 설정 (reference point)
    1. 데이터의 종류가 모두 달라도 같은 기업내에 있는 데이터라면 분명 연관되어 있는 부분이 있어요!
      Ex) 매출데이터 ↔ 플랫폼 데이터: 고객사의 계약 내용과 고객사의 플랫폼 내용이 ‘고객사’라는 기준점을 가지고 데이터가 구성될 수 있어요!
  4. 데이터 시각화
    1. 시각화에는 다양한 툴들이 사용됩니다. Powerpoint나 Google Sheet가 될수도 있고, 보다 복합적이고 고도화된 시각화가 필요하다면 Google Looker Studio, Microsoft Power BI 등이 사용될 수 있어요!
  5. 데이터 예측
    1. 보통 ML (머신러닝) 모델을 구축합니다. 그동안의 데이터를 기반으로 앞으로의 데이터를 예측하는 선형 회귀 모델을 만들고는 해요! 이 부분은 다음 포스트때 자세히 작성해보겠습니다!

· 약 1분
jun

안녕하세요 !

앞으로 제가 일했던 내용들과 간단한 팁(?)들을 남길 예정입니다 ㅎㅎ!! 많관부 ~!