Администрирование [Аналитика плюс] (DWH) Основы теории создания хранилищ данных (2022)

Student

Главный Модератор
1

Student

Главный Модератор
1
Status
Offline
Сообщения
16,347
Решения
30
Реакции
43,789
Баллы
113
[Аналитика плюс] (DWH) Основы теории создания хранилищ данных (2022)

В навыки, требующиеся от эксперта по управлению данными, входит умение смоделировать и организовать хранилище данных. С точки зрения теории существуют правила построения, упрощающие дальнейшую работу (развитие и эксплуатацию) хранилища, — это так называемые нормальные формы.
Начало практикума будет посвящено разбору всех известных в настоящее время нормальных форм, в виде пошаговой нормализации исходной таблицы от первой к шестой форме.
Далее, будут рассмотрены существующие в настоящее время методологии построения хранилищ, от классических (Кимбалл и Инмон) до «современных (Data Vault и Anchor Modeling). В качестве практики будут построены модели хранилища для небольшого интернет-магазина, по каждой из методологий.

Для кого подойдет видео-курс «Основы теории создания хранилищ данных (DWH)»

Уровень сложности – средний.
Наш видео-курс подойдет для специалистов, желающих научиться проектировать хранилища данных (DWH). В начале курса будет разобрана концепция нормальных форм, с примерами, а затем будут рассмотрены существующие в настоящее время методологии построения хранилищ, от классических (Кимбалл и Инмон) до «современных (Data Vault и Anchor Modeling). В качестве практики будут построены модели хранилища для небольшого интернет-магазина, по каждой из методологий.

Программа видео-курса

Урок 1. Введение: базовые понятия и требования к ХД (доступно БСЕПЛАТНО в режиме ДЕМО на платформе онлайн-обучения Академия Аналитики)
— Введение о курсе, содержание курса: теория и практика
— Традиционная архитектура хранилищ данных (ХД)
— Требования к ХД
— Базовая структура ХД: понятия «сырых» данных, метаданных и агрегатов
— ХД с промежуточной областью
— ХД с промежуточной областью и витринами данных

Урок 2. Методологии построения ХД, нормальные формы (доступно БСЕПЛАТНО в режиме ДЕМО на платформе онлайн-обучения Академия Аналитики)
— «Классические» подходы к созданию хранилищ: Ральфа Кимбалла и Билла Инмона
— Современные подходы: Data Vault и Anchor Modelling
— Загрузка данных в ХД: ETL и ELT
— Нормализация СУБД: нормальные формы
— Основные термины нормализации: атрибут и домен атрибута, кортеж, отношение, проекция, аномалии и их виды, суперключ и потенциальный ключ, функциональная зависимость
— Сводная таблица существующих нормальных форм

Урок 3. Нормальные формы, подробности (доступно БСЕПЛАТНО в режиме ДЕМО на платформе онлайн-обучения Академия Аналитики)
— Пример пошаговой нормализации таблицы
— Первая нормальная форма (1НФ), пример и действия по приведению исходной таблицы к 1НФ
— Вторая нормальная форма (2НФ), пример приведения таблицы из 1НФ во 2НФ
— Третья нормальная форма (3НФ), пример приведения таблицы из 2НФ в 3НФ
— Нормальная форма Бойса-Кодда (НФБК), как частный случай 3НФ
— Четвертая нормальная форма (4НФ), примеры
— Пятая нормальная форма (5НФ), примеры
— Шестая нормальная форма (6НФ), примеры

Урок 4. «Классические» методологии построения ХД – Кимбалла и Инмона
— Две «классические» методологии построения ХД – Ральфа Кимбалла и Билла Инмона, и отличия между ними
— Звезды Ральфа Кимбалла: 4 основных шага в разработке хранилища
— Подход Кимбалла: преимущества и недостатки
— Хранилище 3НФ Билла Инмона, реализация концепции CIF (корпоративной информационной фабрики)
— Основные термины, специфичные для хранилищ 3НФ Билла Инмона
— Подход Инмона: преимущества и недостатки

Урок 5. Практика по методологии Кимбалла
— Практика на примере ХД интернет-магазина
— Исходные данные для ХД
— Практика по Кимбаллу: 2 витрины данных – Платежи и Заказы
— Создание промежуточной области, обзор модели данных
— Обзор исходных данных в mySQL
— Запуск скрипта по созданию объектов промежуточной области, в схеме stage
— Обсуждение ETL-скрипта по переносу данных из mySQL в Vertica

Урок 6. Практика по методологии Инмона
— Запуск ETL-скрипта для варианта ХД по Кимбаллу
— Анализ результатов, проверка, что в stage данные появились
— Обсуждение, что конкретно в данном случае объектами ХД могут быть не таблицы, а представления (view)
— Запуск скрипта создания представлений в схеме stardwh, анализ результатов
— Обсуждение ETL
— Начало практики по Инмону, обзор ETL для варианта по Инмону, обсуждение инкрементальной загрузки и дополнительных сложностей
— Запуск скрипта для создания целевых объектов-«приёмников данных» (до запуска ETL)
— Создание представлений (view) из таблиц, с целью выдачи конечным потребителям доступа к данным, в том виде, в котором им удобно будет воспользоваться
— Сравнение подходов Кимбалла и Инмона

Урок 7. Теория «современности»: детали по методологиям Data Vault и Anchor Modeling
— Краткое напоминание о принципах подходов Data Vault и Anchor Modeling
— Data Vault 2.0: основные понятия, — хаб, спутник (сателлит), ссылка
— Алгоритм создания модели хранилища по методологии Data Vault
— Разбор правил, которых следует придерживаться при моделировании
— Преимущества и недостатки подхода Data Vault
— Anchor Modeling (якорное моделирование): основные понятия, — якорь, атрибут, связь и узел
— Преимущества и недостатки якорного моделирования

Урок 8. Практика по Data Vault
— Обзор исходных данных для практики (напоминание)
— Практика – Data Vault
— Обзор SQL-скриптов, решающих практическую задачу
— Анализ скрипта по созданию представлений (view) промежуточной модели данных, состоящей из хабов, связей и спутников
— Анализ скрипта по созданию «звезды», опирающейся на ранее созданные объекты: от таблиц данных к бизнес-объектам

Урок 9. Практика по Anchor Modeling
— О редакторе якорного моделирования
— Алгоритм действий
— Установка якорей, создание связей между якорями, добавление атрибутов
— Генерация кода для создания объектов БД, реализующего модель
— Просмотр ER-диаграммы модели
— Редактирование якорной модели
— Загрузка данных в созданную модель
— О нюансах ETL-инструментов для якорной модели
— Подведение итогов практикума

Подробнее:

Скачать:
 
  • Мне нравится
Реакции: Plain