Сховище даних, OLAP - куб

Сховище даних (data warehouse) - предметно-орієнтований, інтегрований, незмінний, що підтримує хронологію, набір даних, організований для цілей підтримки прийняття рішень. Основна мета створення data warehouse в тому, щоб зробити усі значимі для управління бізнесом дані доступними в стандартизованій формі, придатними для аналізу та отримання необхідних звітів. Для досягнення цього потрібно отримати дані із існуючих внутрішніх та зовнішніх, доступних для комп'ютера, джерел.

Концепція СД

Предметно - орієнтованість

Предметна орієнтованість є фундаментальною відмінністю сховища даних від ОБД. Різні ОБД можуть зберігати дані, які описують одну і ту саму предметну область з різних точок зору (наприклад, з точки зору бухгалтерського обліку, відділу планування і т.д.). Рішення прийняте на основі тільки однієї точки зору, може бути неефективним або навіть хибним. Сховище даних дозволяють інтегрувати інформацію, яка представляє різні точки зору на одну предметну область. Предметна орієнтація дозволяє також зберігати в СД тільки ті дані, які потрібні для аналізу(наприклад, для аналізу немає необхідності зберігати інформацію про номери документів купівлі - продажу, в той час як кількість і ціна проданого товару необхідно).

Інтегрованість

ОБД які використовуються на підприємствах, як правило, розробляються в різний час декількома колективами з власними інструментами. Це призводить до того, що дані які представляють один і той же об'єкт реального світу знаходяться в різних системах, описують його по різному. Обов'язкова інтеграція даних в сховищі даних, дозволяє вирішити цю проблему, приводячи дані до єдиного формату.

Підтримка хронології

Дані в ОБД необхідні для виконання над ними операцій в поточний момент часу. Тому вони можуть не мати прив'язки до часу. Для аналізу даних часто важливо мати можливість відстежувати хронологію зміни показників предметної області. Тому всі дані, які зберігаються в СД, повинні відповідати послідовним інтервалам часу.

Незмінність

Вимоги до ОБД накладають обмеження на час збереження даних в них. Ті дані які непотрібні для оперативної обробки даних, як правило, видаляються з ОБД для зменшення зайнятих ресурсів. Для аналізу, навпаки, необхідно мати інформацію за максимально більший період часу. Тому, на відмінно від ОБД, дані в сховищі даних після завантаження тільки читаються. Це дозволяє суттєво підвищити скорість доступу до даних, як за рахунок можливої надлишковості даних, так і за рахунок виключення операцій модифікації.

Поняття OLAP - куба

OLAP – абревіатура від англійського On-Line Analytical Processing – це технологія обробки інформації, що дозволяє швидко отримувати відповіді на багатовимірні аналітичні запити. OLAP є частиною такого ширшого поняття, як бізнес-аналітика, що також включає такі дисципліни як реляційна звітність та добування данних (спосіб аналізу інформації в базі даних з метою відшукання аномалій та трендів без з'ясування смислового значення записів). Служить для підготовки бізнес-звітів з продажів, маркетингу, в цілях управління, для прогнозування, фінансової звітності та в схожих областях.

Ядром будь-якої OLAP-системи є ідея OLAP-куба (багатовимірний куб, або гіперкуб). OLAP-структура, створена з робочих даних, називається OLAP-кубом. Він складається з чисельних фактів (розмірів), розподіленних за вимірами. Зазвичай куб створюється за допомогою з'єднання таблиць із застосуванням схеми «зірка», або схеми «сніжинка». В центрі «зірки» знаходиться таблиця, яка містить ключові факти, за якими робляться запити. Множинні таблиці з вимірами приєднані до таблиці фактів. Ці таблиці показують, як можуть аналізуватися агреговані реляційні дані. Кількість можливих агрегацій визначається кількістю способів, якими первинні дані можуть бути ієрархічно відображені. Наприклад, всі клієнти можуть бути згруповані за містами, або за регіонами країни (Захід, Схід, Північ і т. д.), таким чином, 50 міст, 8 регіонів і 2 країни складуть 3 рівні ієрархії з 60 членами. Також клієнти можуть бути об'єднані за відношенням до продукції; якщо існують 250 продуктів у двох категоріях, 3 групи продукції і 3 виробничих підрозділи, то кількість агрегатів складе 16560. При додаванні вимірів в схему, кількість можливих варіантів швидко досягає десятків мільйонів і більше. OLAP-куб містить в собі базові дані і інформацію про вимірювання (агрегати). Куб потенційно містить всю інформацію, яка може виявитися необхідною для відповідей на будь-які запити. Через величезну кількість агрегатів, часто повний розрахунок відбувається тільки для деяких вимірювань, для останніх же проводиться «на вимогу».

Література

1. Барселян А.А., Куприянов М.С., Степаненко В.В., Холод И.И, Методы и модели анализа данных OLAP и Data Mining СПб.: БХВ - Петербуг, 2004.-336с.: ил.

2. Бергер А.Б., Microsoft SQL Server 2005 Analysis Services OLAP и многомерный анализ данных - СПб.: БХВ - Петербуг, 2007.-928.: ил.

Посилання

Див. також