본문 바로가기
Research/Google products

Googlesheet_데이터셋 잘 만들기

by RIEM 2022. 1. 17.

자료 출처 : 일잘러의 비밀, 구글 스프레드 시트, 강남석 지음

4.6 좋은 데이터 셋 만드는 법

DB를 만들 때는 보고싶은 시트와 원시 데이터의 시트를 구분하는 것이 중요하다. 목적에 따른 스프레드시트 접근 방법을 알아보자.

 

목적에 따른 시트 유형 3개

데이터 수집을 위한 시트

데이터 수집 위한 시트를 만들 때는 입력 단계와 보관 단계로 구분된다. 입력 후 권한을 활용해 양식과 데이터를 수정하지 못하도록 관리할 수도 있다.

효율적인 DB 관리를 위해선 DB 정규화를 활용하면 좋다. 

데이터 계산을 위한 시트

계산을 위해선 1)확장성과 2)이해를 위한 명료성이 중요하다. 이를 위해 컨설팅 또는 금융권에서는 표준화된 시트를 사용하기도 한다.

보고서 작성을 위한 시트

보고서 작성의 핵심은 주요 데이터만 요약해서 보여주는 것이다. 단, 데이터 수집 또는 계산을 할 경우 시트가 복잡해진다는 단점이 있다.

 

데이터 테이블 간결화를 위한 데이터 정규화(Normalization)

데이터를 재참조하기 위해 데이터베이스 형태로 데이터를 관리하면 편리하다. 

 

데이터 표준 관리

데이터 정규화를 통해 명확한 데이터 표준으로 불필요한 중복 업무를 줄일 수 있다. 게다가 오류도 줄일 수 있다. 정규화를 위해 아래를 기억하자

 

  1. 한 필드(열)에는 한 개의 값만 입력
  2. 같은 성격과 의미의 열은 한 개씩만 만든다
  3. 반복 동일값을 줄이기 위해 키 값이 다른 항목들은 테이블을 분리한다

 

속도제약이 큰 구글시트의 빠른 연상을 위한 팁

  1. 사용하지 않는 행열은 삭제
  2. 자주 계산되는 배열과 값은 결과값을 별도 시트에 표시 후 참조
  3. 한 테이블에 모든 데이터 중복해서 담기보다 여러 테이블로 분리하는 것이 좋음
  4. 전체 범위 참조 대신 필요한 행열만 참조하기
  5. 재계산 필요 없는 수식은 값으로 변경
  6. 계산 빈도 높은 now(), today(), rand(), randbetween() 함수 사용을 줄일 것을 제안
  7. 데이터 너무 양이 많은 경우 BigQuery 등 DB 사용 고려

 

댓글