OLAP-ТЕХНОЛОГИИ
·
Цели и задачи OLAP-технологий
·
Внешнее отображение информации в системе
·
Основные характеристики OLAP
OLAP (On-Line
Analytical Processing) –
это класс приложений и технологий, предназначенных для оперативной
аналитической обработки многомерных данных (сбор, хранение, анализ) для анализа
деятельности корпорации и прогнозирования будущего состояния с целью поддержки
принятия управленческих решений.
Технология OLAP
применяется, чтобы упростить работу с многоцелевыми накопленными данными о
деятельности корпорации в прошлом и не погрязнуть в их большом объеме, а также
превратить набор количественных показателей в качественные, позволяет
аналитикам, менеджерам и управляющим сформировать свое собственное видение
данных, используя быстрый, единообразный, оперативный доступ к разнообразным
формам представления информации. Такие формы, полученные на основании
первичных данных, позволяют пользователю сформировать полноценное представление
о деятельности предприятия.
Функциональность OLAP, как систем
реализующих интеллектуальный анализ данных, заключается в динамическом
многомерном анализе консолидированных данных предприятия, направленном на
поддержание следующих аналитических и навигационных видов деятельности
пользователя:
·
вычисления
и моделирование, примененные к измерениям и/или их конкретным элементам,
использующие информацию об иерархиях
·
анализ
временных тенденций и взаимозависимостей показателей (анализ трендов), учет
которых помогает повысить качество принимаемых оперативных и стратегических
решений
·
формирование
срезов многомерного представления для просмотра на экране
·
переход
к более глубоким уровням детализации
·
доступ
к исходным данным
·
"вращение"
многомерных представлений: перемещение измерений с целью формирования различных
форм представления данных на экране компьютера
OLAP-технология является альтернативой традиционным
методам анализа данных, основанным на различных системах реализации
SQL-запросов к реляционной БД. OLAP-системы играют важнейшую роль в анализе и
планировании деятельности крупных предприятий и являются одним из направлений
развития ИТ. В основу кладутся требования людей принимающих решения к
предоставляемой информации, сложившейся индивидуальные особенности ведения дел
и принятый механизм принятия решения. С точки зрения пользователя основное
отличие OLAP-системы от БД заключается: в предметной структурированности
информации (именно предметной, а не технической). Работая с OLAP-приложением,
пользователь применяет привычные категории и показатели – виды материалов и
готовой продукции, регионы продаж, объем реализации, себестоимость, прибыль и т.
п. А для того чтобы сформировать любой, даже довольно сложный запрос,
пользователю не придется изучать SQL. При этом ответ на запрос будет получен в
течение всего нескольких секунд. Кроме того, работая с OLAP-системой, экономист
может пользоваться такими привычными для себя инструментами, как электронные
таблицы или специальные средства построения отчетов.
На сегодняшний момент проблему понимания
и установления взаимосвязей между агрегированными данными наилучшим образом
решают продукты, использующие многомерный оперативный анализ данных OLAP.
Корпоративная аналитическая система, построенная на основе OLAP-технологии,
позволяет различным категориям пользователей компании в реальном масштабе
времени работать с обобщенной аналитической информацией и эффективно
ориентироваться в больших объемах данных. OLAP-модули редко взаимодействуют с
другими системами автоматизации, ведь БД последних зачастую имеют достаточно
своеобразный вид и набор специальных показателей.
Главная особенность аналитических БД (OLAP) – это
возможность формирования нерегламентированных запросов к аналитической БД.
Загрузка данных в систему производится из оперативной БД предприятия.
Корпоративная аналитическая система может состоять из нескольких модулей,
каждый из которых обрабатывает несколько информационных массивов, необходимых
для проведения всестороннего анализа соответствующего аспекта деятельности
предприятия. Информационная модель, на основе которой разработана
информационная система, в полном объеме описывает все аспекты предметной
области и обеспечивает наглядность и простоту доступа к необходимым для анализа
данным.
Внешнее отображение информации в системе
реализовано в виде электронной таблицы или графика с использованием механизма
двумерных сечений куба многомерной БД. Сечение определяется пользователем путем
выбора двух независимых размерностей (ребер куба), значения которых будут
представлены в строках и столбцах электронной таблицы, и фиксации значений всех
других размерностей информационной модели. Интерфейс предлагаемой системы
представляет собой несколько экранных форм, каждая из которых включает в себя
электронную таблицу или график.
OLAP (On-Line Analytical Processing) - это не
отдельно взятый программный продукт, не язык программирования и даже не
конкретная технология, это совокупность концепций, принципов и требований,
лежащих в основе программных продуктов, облегчающих аналитикам доступ к данным.
Термин OLAP очень популярен в настоящее время и OLAP-системой зачастую, но не совсем
верно, называют любую DSS-систему, основанную на концепции БД и обеспечивающих
малое время выполнение (On-Line) аналитических
запросов, не зависимо от того, используется ли многомерный анализ данных.
Многомерный подход возник
практически одновременно и параллельно с реляционным, но
только начиная с
Многомерный анализ (Multi-dimensional analysis)
позволяет пользователям при работе с данными достичь глубокого понимания информации,
хранящейся в БД. Многомерный подход к анализу предоставляет аналитику широкие
возможности моделирования данных в соответствии со сложившимся у него
представлением о проблеме, снижая тем самым вероятность ошибочной интерпретации
полученных результатов. Поскольку многомерная модель отображает информацию так,
как большинство людей ее себе представляют, то используется интуитивная
навигация по БД. Кроме того, значительно упрощаются процедуры отображения на
экране необходимых аналитику подмножеств данных, представления различных срезов
информации, а также процедура задания алгоритма вычислений. Более того: в силу
того, что данные хранятся в многомерной БД, выполнение подобных операций
характеризуется гораздо более высокой скоростью и стабильной производительностью
(по сравнению с базами данных любой другой структуры). Уникальное сочетание
быстродействия и простоты использования является одним из основных преимуществ
многомерного анализа.
В системах анализа многомерных данных
можно выделить три основных типа данных, анализ которых позволяет производить
прогнозирование бизнес процессов.
Пользователя, занимающегося анализом,
редко интересуют детализированные данные. Более того, чем выше уровень
пользователя (руководителя, управляющего, аналитика), тем выше уровень
агрегации данных, используемых им для принятия решения.
Важнейшим свойством данных в аналитических
задачах
является их исторический характер. Историчность данных
предполагает не только высокий уровень статичности (неизменности) как
собственно данных. А это, в свою очередь, дает возможность использовать
специализированные, основанные на предположении о статичности данных и их взаимосвязей
методы загрузки, хранения, индексации и выборки.
Когда говорится о неизменности и
статичности данных в аналитических системах, имеется в виду неизменность
исключительно исторических данных (данных, описывающих уже произошедшие
события). Существенным моментом является то, что такое предположение ни в коем
случае не распространяется на Прогнозируемые данные (данные о событии, которое
еще не происходило).
В свою очередь, к оперативным
данным, отражающим состояние некоторой предметной области в данный
текущий момент времени, не применимы такие понятия, как прошлое или будущее.
Для них существует единственное понятие - сейчас, а их основное назначение -
адекватное детализированное отображение текущих событий (изменений), происходящих
в реальном мире.
Многомерная
модель данных
При многомерном представление и описании
структур данных основными понятиями, с которыми оперирует пользователь и
проектировщик в многомерной модели данных, являются:
Это множество однотипных данных,
образующих одну из граней гиперкуба. Измерения играют роль индексов,
используемых для идентификации конкретных значений (Показателей), находящихся в
ячейках гиперкуба. Наиболее часто используемые в анализе измерения:
o
временные -Дни, Месяцы, Кварталы, Годы;
o
географических - Города, Районы, Регионы, Страны и т.д.
В многомерной
модели данных
Это часть данных, получаемая путем
определения одного элемента в каждом измерении многомерного массива. Ячейки
гиперкуба могут быть пусты или полны. Когда значительное число ячеек куба не
содержит данных, говорят, что он "разрежен".
Многомерная база данных называется
разреженной, если относительно большой процент ячеек содержит пустые
(утраченные) данные. Вполне обычны такие наборы данных, которые содержат 1%,
0.01% и даже меньшую долю возможных данных.
В различных МСУБД используются два
основных варианта организации данных: гиперкубическая
модель и поликубическая модель. Различие состоит в
том, что системы, поддерживающие поликубическую
модель (например, Oracle Express
Server), предполагают, что в МБД может быть
определено несколько гиперкубов с различной размерностью и с различными
измерениями в качестве их граней. Например, значение показателя Рабочее Время
Менеджера, скорее всего, не зависит от измерения Модель компьютера и однозначно
определяется двумя измерениями: День и Менеджер. В поликубической
модели в этом случае может быть объявлено два различных гиперкуба.
·
двухмерный - для
показателя Рабочее Время Менеджера;
·
трехмерный
- для показателя Объем Продаж.
В случае же гиперкубической
модели предполагается, что все показатели должны определяться одним и тем же
набором измерений. То есть только из-за того, что Объем Продаж определяется
тремя измерениями, при описании Показателя Рабочее Время Менеджера придется
также использовать три измерения и вводить избыточное для этого показателя
измерение Модель Компьютера.
Наличие измерений позволяет производить
следующие виды манипулирования для получения анализируемых данных.
Текущее представление среза многомерной
информации называется отображением страницы (Page Display). Измерения,
расположенные по горизонтали (поперек дисплея), определяют измерения в столбцах
таблицы. Строки таблиц измерений определяются измерениями, расположенными по
вертикали (вдоль дисплея). Выбор элемента измерения страницы позволяет
определить, какая именно страница отображается в данный момент. Страница во
многом напоминает обычную электронную таблицу и может быть интегрирована
практически с любой программой электронных таблиц, где пользователь может в
дальнейшем вносить изменения в каждую ячейку.
Slice and
Dice (нарезка на кубики и ломтики) - это
термин, использующийся для описания функции сложного анализа данных,
обеспечиваемой средствами OLAP выборка данных (продольные и поперечные,
плоскостные и объемные срезы) из многомерного куба с заданными значениями и
заданным взаимным расположением измерений, при котором пользователь обычно
использует операции вращения концептуального куба данных и
детализации/агрегирования данных.
Изменение порядка представления
измерений, применяемое при двухмерном представлении данных, называется вращением
(Rotate, Pivot, пивотинг). Эта операция обеспечивает возможность визуализации
данных в форме, наиболее комфортной для их восприятия. Операция вращения может
заключаться в перестановке местами строк и столбцов таблицы, или перемещении
интересующих измерений в столбцы или строки создаваемого отчета, что позволяет
придавать ему желаемый вид. Кроме того, вращением куба данных является
перемещение вне табличных измерений на место измерений, представленных на
отображаемой странице, и наоборот (при этом вне
табличное измерение становится новым измерением строки или измерением столбца).
В данном примере значения показателей
определяются только тремя измерениями. На самом деле их может быть гораздо
больше и между их значениями обычно существуют множество различных отношений (Relation) типа "один ко многим". Следует
отметить, что для измерений, имеющих тип Время (таких как День, Месяц, Квартал,
Год), все отношения устанавливаются автоматически, и их не требуется описывать.
В процессе анализа пользователь не
только работает с различными срезами данных и выполняет их вращение. Одним из
часто встречающихся способов манипулирования данными является операция агрегации
(консолидации) (Drill Up)
-переход от детализированных данных к агрегированным.
С точки зрения пользователя, Подразделение, Регион, Фирма, Страна являются
точно такими же измерениями, как и Менеджер. Но каждое из них соответствует
новому, более высокому уровню агрегации значений показателя Объем продаж.
Переход от более агрегированных
к более детализированным данным называется операцией детализации
(Drill Down). Например,
начав анализ на уровне Региона, пользователь может захотеть получить более
точную информацию о работе конкретного Подразделения или Менеджера.
|
Аббревиатура OLAP была впервые
введена Коддом (E.F.Kodd), известным ученым в области
реляционных БД, создателем широко распространенной реляционной модели. В своей
работе, инициированной компанией Arbor Software (сегодня это Hyperion Solutions) "Providing OLAP to User Analysis:
AN IT MAN-DATE"(Обеспечение OLAP (оперативной аналитической обработки) для
пользователей – аналитиков) в
·
основной
недостаток реляционной модели как невозможность «объединять,
просматривать и анализировать данные с точки зрения множественности измерений,
то есть самым понятным для корпоративных аналитиков способом»
·
общие
требования к системам OLAP, расширяющим функциональность
реляционных СУБД и включающим многомерный анализ как одну из своих
характеристик.
Кодд сформулировал концепцию
комплексного многомерного анализа данных, накопленных в хранилище, в виде 12
основных правил, которым должны удовлетворять OLAP-системы, как продукты,
предоставляющие возможность выполнения оперативной аналитической обработки. В
1995 году к ним были добавлены еще шесть (которые известны в значительно
меньшей степени). Все эти правила разделены на четыре группы и названы
«характеристиками» (features, особенности). Ниже дано
краткое описание этих особенностей, однако сегодня они редко цитируются и мало
используются:
o
многомерность
модели данных (оригинальное правило 1). Эта особенность - сердцевина OLAP;
o
прозрачность
(оригинальное правило 2),
o
доступность
данных, пакетное извлечение данных (оригинальное правило 3),
o
архитектура
«клиент-сервер» (оригинальное правило 5),
o
многопользовательская
работа (оригинальное правило 8),
o
интуитивные
механизмы манипулирования данными (оригинальное правило 10),
o
пакетное
извлечение против интерпретации (новое). Это правило требует, чтобы продукт в
равной степени эффективно обеспечивал доступ как к
собственному хранилищу данных, так и к внешним данным. К
большому сожалению лишь небольшая часть OLAP продуктов должным образом
соответствует ей, и среди них редкие делают это легко или автоматически.
Сегодня это соответствует определению гибридных OLAP,
которые, в самом деле, становятся наиболее популярной архитектурой
o
модели
анализа OLAP (новое). OLAP-продукты должны поддерживать четыре модели анализа
(Категориальный, Толковательный, Умозрительный и Стереотипный) которые можно
определить как формирование параметрически
настраиваемых отчетов, формирование разрезов и группировок с обращением,
анализом в стиле "что, если" и моделями поиска целей, соответственно.
Указывает на необходимость интеграции
между OLAP-машиной и ненормализованными источниками данных. Не должны
допускаться изменения данных, которые обычно расцениваются как расчетные ячейки
в пределах БД OLAP.,
В действительности это боле относится к
реализации, чем к сущности продукта. OLAP приложения, работающие в режиме
чтения/записи не должны воздействовать напрямую на обрабатываемые данные, и
данные, модифицированные в OLAP, должны сохраняться отдельно от данных
транзакций. Например, метод обратной записи данных, использованный в Microsoft OLAP Services, является
лучшей реализацией этого, поскольку позволяет сохранять данные, измененные в
среде OLAP, отдельно от основных данных.
Пропущенные данные (Missing Data, Missing
Value) – это особый элемент данных, который
сигнализирует о том, что в данной ячейке данные отсутствуют и/или не
определены. Это может быть как вследствие того, что рассматриваемая комбинация
элементов не имеет смысла (например, снегоходы не могут продаваться в
экваториальных странах), так и того, что данные не были введены. Термин
"Пропущенные данные" по своему значению близок к термину "Пустое
значение данных", однако, это не то же самое, что "Нулевое
значение". В действительности это интересно только с точки зрения
компактности хранения данных, некоторые OLAP инструменты игнорируют это правило
без больших потерь в функциональности.
Все отсутствующие значения будут
игнорироваться OLAP анализатором без учета их источника. Эта особенность
связана с предыдущей и
является почти неизбежным следствием того, как OLAP-машина обрабатывает все
данные.
o
стабильная
производительность при построении отчетов (оригинальное правило 4),
o
автоматическая
настройка физического уровня(замена оригинального
правила 7),
o
гибкое
построение отчетов (оригинальное правило 11).
o
общая
функциональность - универсальность измерений (оригинальное правило 6),
o
неограниченные
операции между данными различных измерений (оригинальное правило 9)
o
неограниченное
число измерений и уровней агрегирования (оригинальное правило 12).
Работа с OLAP-системами может быть
построена на основе из двух схем:
Такие средства, как правило, имеют
множество ограничений: на количество измерений, на допустимые иерархии и так
далее.
Сервер обеспечивает непосредственно извлечение информации из СУБД и все прочее, необходимое для создания кубов. Специализированное же приложение-клиент предназначено для удобного (а главное -эффективного) просмотра кубов и выявления тех самых аналитических закономерностей.
На данное время разработан довольно
много аналитических систем, сконструированных с использованием OLAP-технологии
(Нурегіоn OLAP, Elite OLAP, Oracle Express и много других). Рынок программных
OLAP-продуктов постоянно расширяется. Современные системы оперативной
аналитической обработки дают пользователям возможность решать ключевые задачи
управления бизнесом-процессом, в частности прикладные
программы Нурегіоn OLAP разрешают выполнять анализ
прибыльности; анализ направлений развития продукции; анализ продажи; анализ
положения на рынке; анализ ассортимента продуктов; анализ риска; анализ
конкурентоспособности; складывания отчетов из производительности; моделирования
сценария; анализ бюджета и прогнозов и т.п.
Следует отметить, что в соответствии с
современными взглядами на создание информационных систем OLAP-системы должны
базироваться на специальной базе данных — БД.
В OLAP реализуется сложный
интеллектуальный анализ данных. Возможность использования хорошо
зарекомендовавших себя методов математической статистики, нейронных сетей,
машинного обучения, визуализации данных, индукции правил, нечеткой логики,
генетических алгоритмов и др. для решения задач подобного рода открыло новые
возможности перед аналитиками, исследователями, а также теми, кто принимает
решения - менеджерами и руководителями компаний. Сложность и разнообразие
методов обработки данных требуют создания специализированных средств конечного
пользователя для решения типовых задач анализа информации в конкретных
областях. Поскольку эти средства используются в составе сложных
многофункциональных систем поддержки принятия решений, они должны легко
интегрироваться в подобные системы. Другими словами, вся эта сложная математика
заботливо скрыта от конечного пользователя дружественным интерфейсом.
В OLAP-системах основное внимание
уделено гибкости доступа и манипулирования информацией. На сегодняшний день
большинство разработок в этой области относится к финансовой сфере, хотя
возможно применение таких систем в различных областях деятельности человека.
Одним из первых пользователей технологии
интеллектуального анализа данных стало федеральное правительство США. Оно
применяет с 1996 года специализированное программное обеспечение, для выявления
случаев уклонения от уплаты налогов и для обработки материалов перехвата
информационного обмена других государств.
По оценкам специалистов, очень
перспективно применение подобных систем и для решения задач защиты информации.
Например, анализ подлинности электронных платежей, выявление случаев
неоправданной «активности» легальных пользователей в сети до совершения ими
нарушений, анализ действенности принятой политики безопасности и т.д.
OLAP в отличие от прочих способов
автоматизации бизнес-деятельности дает возможность
получить пользователю «на выходе» не готовое четко структурированное решение,
выдаваемое после включения ранее настроенного мастера обработки форм, а
своеобразный материал для творческой оценки существующей ситуации. Поэтому
сфера применения OLAP-анализа обычно ограничивается менеджерским составом
предприятий разных размеров, которому приходится часто заниматься тактическими
и стратегическими задачами вроде анализа ключевых показателей деятельности и
сценариев развития, маркетинговым и финансово-экономическим анализом групп
товаров или услуг, а также долгосрочным прогнозированием работы предприятия или
его подразделений.
Для этого пользователь OLAP-систем
получает в руки мощный и главное очень гибкий инструмент создания различных
отчетов по выбираемым им же разрезам и направлениям. При этом методики OLAP
куда совершеннее привычных электронных таблиц, ведь помимо простых функций
создания таблиц, графиков и диаграмм, OLAP-системы дают возможность получить
обобщенные данные по самостоятельно выбранным критериям, моментально углубится
в детали выбранных направлений, отфильтровать, сортировать или отбросить
ненужные цифры или показатели.
Ниже перечислены наиболее важные сферы
применения OLAP-технологий.