-
구조
- 작고 빠르게 반복적으로 구축해야 하며, 빅뱅식 접근은 실패할 가능성이 높다.
- 보통 스타 스키마를 사용하지만 차원 요소간의 관계가 M:N인 경우 사용할 수 없다.
- 집계
- 단위 정보들은 많은 양의 레코드를 포함해서 집계를 통해 쿼리 시간을 단축할 수 있다.
- 역정규화
- 조인을 사용을 없애 성능 향상을 도모할 수 있다.
- 분할
- 큰 테이블을 작은 테이블로 쪼개서 작업병렬화를 통해 부분적으로 속도를 향상시킬 수 있다.
- 부분적인 백업, 복구에 용이하다.
- 로드밸런서처럼 라운드로빈, 조건식 분할을 할 수 있다.
-
중요한 이유
- 이기종 소스에서 데이터를 ETL/ELT하기 위해 한군데로 모은다
- 사실기반 의사결정을 위해 현재/기록 데이터를 모두 유지한다
-
애플리케이션 유형
- 정보 처리
- 저장된 데이터와 직접 1:1 접촉을 한다
- 검색어 도구: 쿼리를 실행해 데이터를 탐색하고 요구사항에 따라 보고서나 시각화 함
- 보고 도구: 정의된 형식과 일정에 따라 리포트를 작성
- 통계 도구
- 분석 처리
- 슬라이스 앤 다이스: 다양한 관점의 조합으로 여러 수준에서 액세스한 데이터를 분석
- 슬라이싱은 요구사항에 따라 특정 영역의 차원을 분석
- 다이싱은 모든 차원에서 특정 속성 집합을 확대
- 드릴 다운: 요구사항에서 집중해야하는 부분을 세부 탐색
- 롤업: 드릴다운과 반대로 작동하며, 도시 → 주 → 지역 → 국가 수준같은 탐색 방법론
- 피벗: 행차원을 열차원으로 변경
- 슬라이스 앤 다이스: 다양한 관점의 조합으로 여러 수준에서 액세스한 데이터를 분석
- 데이터 마이닝
- 패턴
- 집합/관계: 개체 간의 관계 검색
- 분류: 미리 정의한 클래스 집합으로 데이터 구성
- 예측
- 특성
- 주제 지향
- 통합
- 비 휘발성
- 시간 변형
- 정보 처리