본문으로 건너뛰기

데이터 수집 (데이터 시각화에 관해 1)

· 약 4분
jun

데이터 수집이란?

1. 현황 파악하기

data-collection

데이터의 소스에 대해 먼저 파악합니다.

→ 세일즈? DB? 등등..

각각의 데이터 저장소에 아마 저장이 되고 있을거에요. 그러나, 저장이 안되고 휘발되는 데이터가 있을 가능성이 있습니다. 예시로는 DB의 로그인스탬프라는게 있어요. 데이터베이스의 용량은 한정적이기에 어떤 데이터는 특정 기간동안만 유지하고 이후에는 삭제되고는 합니다. 예시로 CCTV는 일주일정도만 저장되는게 있겠네요 ! 로그인스탬프: 유저 혹은 고객이 서비스에 방문한 기록을 시간 단위로 누적하여 기록을 말합니다.

저는 이 데이터가 꼭 필요했으나, DB에서는 이 값이 갱신되는 것을 확인했어요. 고객이 어제 접속하고 오늘 접속하면 DB는 가장 최근의 값인 오늘 접속기록만 갖고 있는 문제가 있었습니다.

DB 용량은 한정되어 있는 상황에서 어떻게 이 문제를 해결할 수 있을까요?

2. 데이터 기록하기

최고의 방법은 아니지만, 최선의 방법이기에 이런 방법을 선택했어요. 작업 방식은 이렇게 됩니다. (코딩을 할줄 알면 좋지만 못해도 괜찮아요)

  • DB의 구조 파악
    • DB에도 여러 종류가 있어요. 단체 혹은 기업에서 어떤 DB를 사용하는지부터 알아야합니다. 보통 PostgreSQL 혹은 MySQL일거에요.
    • 위 DB들의 장점은 테이블 형식으로 구성이 되어 있습니다. (엑셀과 비슷한 형태에요)
    • DB에 접속하면 해당 내용을 확인할 수 있고, 필요한 데이터의 컬럼 정보를 파악합니다.
  • 데이터 Automation or 연동
    • 핵심은, 데이터의 내용이 어떠한 곳으로 전송되고 기록되는거에요.

    • 저는 구글시트를 많이 활용합니다. 구글시트에서 제공하는 Apps script는 꽤 괜찮거든요!

    • 스크립트를 만들고 실행한뒤, 언제 스크립트가 실행될지 트리거를 설정해주면 됩니다.

      - 보통 Daily로 트리거를 만들어요!

    • 또 다른 방법은 자동화 툴을 사용하는 방법이 있어요. 권장

      • 아래 두가지 툴이 널리 쓰이고 있습니다.
        • Make (integromat)
        • Zapier
    • 일단 위 방법(스크립트)보다 간편합니다. 거의 모든 data automation은 위 도구들로 가능할거에요.

3. 데이터 권한 추가하기

  • 데이터를 분석 & 시각화하는 일은 보통 ’읽기’ 권한만 가지고 있으면 가능합니다.
    • ‘쓰기’ 권한은 데이터를 직접 수정 가능
    • ‘읽기’ 권한은 데이터에 접근하여 데이터 열람 가능
  • 다만, 자동화 툴을 사용한다면 자동화 툴에게도 읽기 권한 부여가 필요합니다.
    • AWS(amazon web service)를 사용하면 인바운드 규칙에 해당 자동화 툴 IP를 등록하는 작업이 있는데 !
    • 만약에 현업 업무에서 이게 필요하다면 개발팀 혹은 프로덕트팀에 IP 주소 알려드리고 이거 허용해달라 (인바운드 추가해달라) 하면 해주실거에요.
      • 어떤 IP를 허용해야하는지와 같은 매뉴얼은 자동화 툴에 자세히 안내되어 있습니다. 절대 복잡하지 않아요!

4. 데이터 수집 완료

데이터 수집이 잘 되고 있는지 확인하고! 잘 되고 있다면 이 단계는 끝이에요.

정리가 안되어 있어도, 데이터의 형태를 알아볼 수 없어도 괜찮아요!

핵심은 데이터가 휘발되지 않고, 기록되는 것입니다!