Skip to content

Latest commit

 

History

History
40 lines (38 loc) · 2.02 KB

dw.md

File metadata and controls

40 lines (38 loc) · 2.02 KB

데이터 웨어하우징

  • 구조

    • 작고 빠르게 반복적으로 구축해야 하며, 빅뱅식 접근은 실패할 가능성이 높다.
    • 보통 스타 스키마를 사용하지만 차원 요소간의 관계가 M:N인 경우 사용할 수 없다.
    • 집계
      • 단위 정보들은 많은 양의 레코드를 포함해서 집계를 통해 쿼리 시간을 단축할 수 있다.
    • 역정규화
      • 조인을 사용을 없애 성능 향상을 도모할 수 있다.
    • 분할
      • 큰 테이블을 작은 테이블로 쪼개서 작업병렬화를 통해 부분적으로 속도를 향상시킬 수 있다.
      • 부분적인 백업, 복구에 용이하다.
      • 로드밸런서처럼 라운드로빈, 조건식 분할을 할 수 있다.
  • 중요한 이유

    • 이기종 소스에서 데이터를 ETL/ELT하기 위해 한군데로 모은다
    • 사실기반 의사결정을 위해 현재/기록 데이터를 모두 유지한다
  • 애플리케이션 유형

    • 정보 처리
      • 저장된 데이터와 직접 1:1 접촉을 한다
      • 검색어 도구: 쿼리를 실행해 데이터를 탐색하고 요구사항에 따라 보고서나 시각화 함
      • 보고 도구: 정의된 형식과 일정에 따라 리포트를 작성
      • 통계 도구
    • 분석 처리
      • 슬라이스 앤 다이스: 다양한 관점의 조합으로 여러 수준에서 액세스한 데이터를 분석
        • 슬라이싱은 요구사항에 따라 특정 영역의 차원을 분석
        • 다이싱은 모든 차원에서 특정 속성 집합을 확대
      • 드릴 다운: 요구사항에서 집중해야하는 부분을 세부 탐색
      • 롤업: 드릴다운과 반대로 작동하며, 도시 → 주 → 지역 → 국가 수준같은 탐색 방법론
      • 피벗: 행차원을 열차원으로 변경
    • 데이터 마이닝
      • 패턴
      • 집합/관계: 개체 간의 관계 검색
      • 분류: 미리 정의한 클래스 집합으로 데이터 구성
      • 예측
    • 특성
      • 주제 지향
      • 통합
      • 비 휘발성
      • 시간 변형