АП «Deductor» применима для решения большого спектра задач, таких как создание аналитической отчетности, прогнозирование, поиск закономерностей и пр. Можно сказать, что данная система применима в задачах, где требуется консолидация и отображение данных различными способами, построение моделей и последующее применение полученных моделей к новым данным.

Рассмотрим некоторые задачи, решаемые АП:

- Системы корпоративной отчетности. Готовое хранилище данных и гибкие механизмы предобработки, очистки, загрузки, визуализации позволяют быстро создавать законченные системы отчетности в сжатые сроки.

- Обработка нерегламентированных запросов. Конечный пользователь может с легкостью получить ответ на вопросы типа "Сколько было продаж товара по группам в Московскую область за

прошлый год с разбивкой по месяцам?" и просмотреть результаты наиболее удобным для него способом.

- Анализ тенденций и закономерностей, планирование, ранжирование. Простота использования и интуитивно понятная модель данных позволяет вам проводить анализ по принципу «Что, если...?», соотносить ваши гипотезы со сведениями, хранящимися в базе данных, находить аномальные значения, оценивать последствия принятия бизнес-решений.

- Прогнозирование. Построив модель на исторических примерах, вы можете использовать ее для прогнозирования ситуации в будущем. По мере изменения ситуации нет необходимости перестраивать все, необходимо всего лишь дообучить модель.

- Управление рисками. Реализованные в системе алгоритмы дают возможность достаточно точно определиться с тем, какие характеристики объектов и как влияют на риски, благодаря чему можно прогнозировать наступление рискового события и заблаговременно принимать необходимые меры к снижению размера возможных неблагоприятных последствий.

- Анализ данных маркетинговых и социологических исследований. Анализируя сведения о потребителях, можно определить, кто является вашим клиентом и почему. Как изменяются их пристрастия в зависимости от возраста, образования, социального положения, материального состояния и множества других показателей. Понимание этого будет способствовать правильному позиционированию ваших продуктов и стимулированию продаж.

- Диагностика. Механизмы анализа, имеющиеся в системе Deductor, с успехом применяются в медицинской диагностике и диагностике сложного оборудования. Например, можно построить модель на основе сведений об отказах. При ее помощи быстро локализовать проблемы и находить причины сбоев.

- Обнаружение объектов на основе нечетких критериев. Часто встречается ситуация, когда необходимо обнаружить объект, основываясь не на таких четких критериях, как стоимость, технические характеристики продукта, а на размытых формулировках, например, найти продукты, похожие на ваши с точки зрения потребителя.

1.3. Практическая часть

После запуска «Deductor Studio Academic» появится главное окно программы.

Главное окно после запуска программы Deductor Studio

Для начала работы необходимо создать новый сценарий, воспользуемся для этого мастером импорта (кнопка в левой части главного окна либо клавиша F6).

Импорт данных включает в себя:

- выбор типа источника данных;

- выбор файла источника данных;

- указание параметров импорта;

- указание параметров столбцов;

- выбор способа отображения данных (при выборе

«Диаграммы», «Гистограммы» или «OLAP-куба» потребуется дополнительно указать параметры построения);

- указание имени, метки и описания данных.

Выполнив вышеуказанные действия по импорту данных, на панели «Сценарии» мы получим новый узел, с заданными именем, меткой и описанием.

Все способы разделены на четыре основные группы: очистка данных, трансформация данных, Data Mining, пр. Каждый способ обработки имеет название и краткое описание. Выбор способа зависит от целей обработки данных (например, сортировка и фильтрация данных, построение дерева решений и пр.).

Мастер визуализации позволяет определить способ отображения данных, указать метки и добавить описание к проекту. Запустить его можно с помощью кнопки либо клавишей F5.

Готовый проект можно экспортировать, воспользовавшись мастером экспорта (кнопка основного окна либо клавиша F8). Указав параметры, проект можно перенести в один из доступных форматов.

1.4. Задание

1. Опишите назначение и возможности АП «Deductor».

2. Запустите программу «Deductor Studio Academic», ознакомьтесь с назначением кнопок и контекстным меню главного окна программы.

3. Воспользуйтесь мастером импорта данных (импортируйте любой файл, например из C:\Program Files\ BaseGroup\ Deductor\ Samples\ *.txt ).

4. Ознакомьтесь с доступными способами обработки данных.

5. Изучите возможности мастера визуализации и экспорта. Какие параметры доступны для мастера экспорта данных?

6. Создайте отчет.

Лабораторная работа №2. Реализация алгоритма построения

дерева решений

2.1. Основная цель

Изучить алгоритм «Построение дерева решений» и научиться обрабатывать с его помощью данные.

2.2. Теоретическая часть

Своевременная разработка и принятие правильного решения - это одна из главных задач работы управленческого персонала

- множество T не содержит ни одного примера, т.е. пустое множество. Тогда это снова лист, и класс, ассоциированный с листом, выбирается из другого множества отличного от T, скажем, из множества, ассоциированного с родителем;

- множество T содержит примеры, относящиеся к разным классам. В этом случае следует разбить множество T на некоторые подмножества. Для этого выбирается один из признаков, имеющий два и более отличных друг от друга значений O1, O2, ... On. T разбивается на подмножества T1, T2, ... Tn, где каждое подмножество Ti содержит все примеры, имеющие значение Oi для выбранного признака. Эта процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же классу.

Вышеописанная процедура лежит в основе многих современных алгоритмов построения дерева решений, этот метод известен еще под названием «разделение и захват». Очевидно, что при использовании данной методики построение дерева решений будет происходить сверху вниз.

Области применения дерева решений

Дерево решений является прекрасным инструментом в системах поддержки принятия решений, интеллектуального анализа данных (Data Mining). В областях, где высока цена ошибки, они послужат отличным подспорьем аналитика или руководителя.

Дерево решений успешно применяется для решения практических задач в следующих областях:

- Банковское дело. Оценка кредитоспособности клиентов банка при выдаче кредитов.

- Промышленность. Контроль качества продукции (выявление дефектов), испытания без разрушений (например, проверка качества сварки) и т.д.

- Медицина. Диагностика различных заболеваний.

- Молекулярная биология. Анализ строения аминокислот.

Это далеко не полный список областей, где можно использовать дерево решений, т.к. еще многие потенциальные области применения не исследованы.

Лабораторная работа №3. Логистическая регрессия и ROC-анализ

3.1. Основная цель

Научиться обрабатывать данные и прогнозировать события, используя возможности логистической регрессии и ROC-анализ.

3.2. Теоретическая часть

Логистическая регрессия — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.

Вообще, регрессионная модель предназначена для решения задач предсказания значения непрерывной зависимой переменной, при условии, что эта зависимая переменная может принимать значения на интервале от 0 до 1. В силу такой специфики ее часто используют для предсказания вероятности наступления некоторого события в зависимости от значений некоторого числа предикторов.

При изучении линейной регрессии мы исследуем модели вида

y = a + b1 x1 + b2 x2 +... + bn xn .

Здесь зависимая переменная y является непрерывной, и мы определяем набор независимых переменных xi и коэффициенты при них bi, которые позволили бы нам предсказывать среднее значение y с учетом наблюдаемой ее изменчивости.

Во многих ситуациях, однако, y не является непрерывной величиной, а принимает всего два возможных значения. Обычно единицей в этом случае представляют осуществление какого-либо события (успех), а нулем - отсутствие его реализации (неуспех).

Среднее значение y - обозначенное через p, есть доля случаев, в которых y принимает значение 1. Математически это можно записать как p = P(y = 1) или p = P("Успех").

ROC-кривая или кривая ошибок - показывает зависимость количества верно классифицированных положительных объектов (по оси y) от количества неверно классифицированных отрицательных объектов (по оси x).

В терминологии ROC - анализа первые называются истинно положительным, вторые – ложно отрицательным множеством. При этом предполагается, что у классификатора имеется некоторый

параметр, варьируя который, мы будем получать то или иное разбиение на два класса. Этот параметр часто называют порогом, или точкой отсечения. В зависимости от него будут получаться различные величины ошибок I и II рода.

В логистической регрессии порог отсечения изменяется от 0 до 1

– это и есть расчетное значение уравнения регрессии. Будем называть его рейтингом.

Введём ещё несколько определений:

TP (True Positives) – верно классифицированные положительные примеры (так называемые истинно положительные случаи);

TN (True Negatives) – верно классифицированные отрицательные примеры (истинно отрицательные случаи);

FN (False Negatives) – положительные примеры, классифицированные как отрицательные (ошибка I рода). Это так называемый «ложный пропуск» – когда интересующее нас событие ошибочно не обнаруживается (ложно отрицательные примеры);

FP (False Positives) – отрицательные примеры, классифицированные как положительные (ошибка II рода). Это ложное обнаружение, т.к. при отсутствии события ошибочно выносится решение о его присутствии (ложно положительные случаи).

Что является положительным событием, а что – отрицательным, зависит от конкретной задачи. Например, если мы прогнозируем вероятность наличия заболевания, то положительным исходом будет класс «Больной пациент», отрицательным – «Здоровый пациент». И наоборот, если мы хотим определить вероятность того, что человек здоров, то положительным исходом будет класс «Здоровый пациент», и так далее.

При анализе чаще оперируют не абсолютными показателями, а относительными – долями, выраженными в процентах:

Доля истинно положительных примеров (True Positives Rate):

Модель с высокой чувствительностью часто дает истинный

результат при наличии положительного исхода (обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (обнаруживает отрицательные примеры).

ROC-кривая получается следующим образом:

1. Для каждого значения порога отсечения, которое меняется от 0 до 1 с шагом dx (например, 0,01), рассчитываются значения чувствительности Se и специфичности Sp. В качестве альтернативы порогом может являться каждое последующее значение примера в выборке.

2. Строится график зависимости: по оси y откладывается чувствительность Se, по оси x – (100 %–Sp) (сто процентов минус специфичность), или, что то же самое, FPR – доля ложно положительных случаев.

Численный показатель площади под кривой называется AUC (Area Under Curve). С большими допущениями можно считать, что чем больше показатель AUC, тем лучшей прогностической силой обладает модель. Однако следует знать, что:

- показатель AUC предназначен скорее для сравнительного анализа нескольких моделей;

- AUC не содержит никакой информации о чувствительности и специфичности модели.

В литературе иногда приводится следующая экспертная шкала для значений AUC, по которой можно судить о качестве модели:

- отличное качество модели – интервал AUC 0,9-1,0;

- очень хорошее качество модели – интервал AUC 0,8-0,9;

- хорошее качество модели – интервал AUC 0,7-0,8;

- среднее качество модели – интервал AUC 0,6-0,7;

- неудовлетворительное качество модели – интервал AUC 0,5-0,6.

Лабораторная работа №2. Добавление данных в базы данных

2.1. Основная цель

Научиться добавлять текстовые данные в базы данных

«Семантического архива» в АРМ «Оператор».

2.2. Пояснения к выполнению работы

Проводя аналитическое исследование, всегда следует вести архив полученных данных, поскольку одни и те же данные спустя время могу толковаться по-разному. Также это необходимо для выявления причинно-следственных связей, которые можно проследить только во временном промежутке.

ИАС «Семантический архив» предназначена для решения широкого круга аналитических задач. Для этого в системе создаются базы данных, в которых накапливаются знания об объектах и их действиях. Система поставляется с несколькими готовыми базами данных, которые нуждаются в обновлении, а для работы с новыми объектами возникает необходимость создания архивов путём добавления новых текстовых массивов.

Открытие витрины АРМ «Оператор»

Для открытия АРМ «Оператор» последовательно выберите левой кнопкой мыши пункты меню: «Пуск» - «Все программы» -

«Аналитические бизнес решения» - «Семантический Архив» - «АРМ

«Оператор».

В диалоговом окне «Настройка подключения» введите имя сервера в поле «Сервер» и выберите значение из списка «База данных». Нажмите кнопку «Продолжить» окна «Настройка подключения».

Витрина АРМ «Оператор» после открытия выглядит следующим образом.

Для вставки в систему одного или нескольких документов из указанной папки нажмите кнопку «Создать документ из файла» на главной панели инструментов витрины АРМ «Оператор» или используйте сочетание клавиш «Shift + Ctrl + N».

В открывшемся диалоговом окне выбора документов зайдите в папку, где хранятся файлы статей, и выделите одну или несколько (при помощи сочетания клавиш «Shift + [↑↓]») статей для ввода. Кнопки «Shift + [↑↓]» используются при выделении файлов статей, расположенных в списке друг за другом. При необходимости выделить файлы, находящиеся в разных частях списка, воспользуйтесь сочетанием клавиш «Ctrl + левая клавиша мыши»: удерживая «Ctrl», отметьте левой клавишей мыши нужные вам файлы.

После выбора статей для добавления в базу данных, нажмите кнопку «Открыть», система начнет их обработку.

Добавление данных через «Автопапку»

Если у вас имеется собранная информация, размещенная по тематическим папкам, или вы хотите одновременно сохранять документы в текстовых файлах и автоматически добавлять их в систему, то удобнее воспользоваться «Автопапками». Функцию

«Автопапки» можно включать и отключать по мере необходимости. Если документы изначально находятся в разных местах, тогда при помощи средств файловой системы их можно перенести в одну папку, и одновременно с добавлением новых документов уже может идти загрузка. Еще этот способ удобен, если из библиотек поставщиков контента регулярно поступает много статей в какие-то папки файловой системы.

Создайте на своем компьютере две рабочие папки: папку, в которую вы предполагаете помещать новые документы, и папку, в которую система будет перемещать обработанные документы. В первую папку поместите текстовые документы, содержащие данные о некоторых объектах.

Нажмите кнопку «Настроить автопапку» или используйте сочетание клавиш «Ctrl + Alt + G».

2.3. Задание

1. Найдите биографии любых четырёх известных личностей.

2. Добавьте информацию о первой биографии в БД

«Семантического архива» через «Утилиту добавления документов».

3. Добавьте информацию о второй биографии в БД

«Семантического архива» через «Утилиту добавления документов» кнопкой «Быстро вставить документ».

4. Добавьте информацию о третьей биографии в БД

«Семантического архива» через кнопку «Создать документ из файла».

5. Добавьте информацию о четвёртой биографии БД

«Семантического архива» через «Автопапку».

Лабораторная работа №3. Работа в витрине «Сквозного поиска»

1.1. Основная цель

Поиск выбранных объектов (персоны, организации и.т.д.) с заданным значением их свойств и связей из разных БД.

1.2. Пояснения к выполнению работы

Собрав достаточно большой архив данных, необходимо научиться быстрому поиску необходимой информации в собственных архивах. Такая же ситуация возможна при приобретении чужих архивов данных. В таких случаях возникает необходимость появления автоматизированного приложения для сокращения временных затрат в среду структурированных архивов данных.

Лабораторная работа №4. Перенос данных из АРМ

«Оператор» в «Аналитик»

4.1.Основная цель

Научиться переносить обработанные данные из АРМ «Оператор» в АРМ «Аналитик».

4.2. Пояснения к выполнению работы

Даже хорошо структурированные данные без визуального отображения не предоставляют возможности легко оценивать картину исследования. Только визуально протянув связи между объектами через их действия или действия над ними, можно построить целостную картину, позволяющую дать наиболее точную оценку. После установления прямых связей объектов можно найти косвенные связи, например объектов через третий объект или действие.

Входными данными для работы АРМ «Аналитик» являются текстовые массивы, переработанные (выделены объекты, их связи и пр.) в АРМ «Оператор». Первоначальным этапом работы аналитика является получение данных об объектах и их связях от оператора, для этого в ИАС «Семантический архив» имеются приспособления

«Сквозной поиск» - для нахождения объектов, связей, статей в БД и

«Корзина» - для передачи данных.

4.3. Поиск объектов и помещение в «Корзину»

Для поиска объекта в «Сквозной поиск» созданного в АРМ

«Аналитике» и привязывания к нему найденных результатов нажмите правой кнопкой мыши на объекте поиска, в выпавшем меню выберите

«Сквозной поиск» - «Искать в сквозном поиске».

4.3. Задание

1. Найдите объект «Иванов Сергей Владимирович» через

«Сквозной поиск».

2. Переместите данные о нём в АРМ «Аналитик».

Лабораторная работа №5. Построение семантических сетей

5.1. Основная цель

Научиться строить семантические сети с помощью АРМ

«Аналитик»".

5.2. Пояснения к выполнению работы

Визуальное отображение данных исследования позволяет наиболее ясно увидеть картину. Проследить прямые, косвенные связи, выявить причинно-следственные взаимодействия. Такая картина сама должна быть максимально ясной и логически интуитивно понятной. Временные процессы следует располагать слева направо, иерархии строить сверху вниз. Процессы, являющиеся подпроцессами одного единого, – объединять рамками. Следует избегать множественного пересечений связей. Связь один ко многим следует отображать одной связью, объединив объекты рамкой.

Анализ собранных данных по объекту начинается с изучения связанных с ним фактов в инспекторе свойств или на динамической раскладке семантической сети. Удобно разбираться в данных, создав экземпляр рабочей области и формируя раскладки с фрагментами данных. Далее в такие раскладки постепенно добавлять новые

«куски» сети.

В витрине АРМ «Аналитик» создайте «Рабочую область»

«Аффилированные лица».

Для этого нажмите на панели инструментов кнопку «Поиск элементов по типу».

При помощи кнопки «Создание экземпляра» создайте экземпляр типа «Рабочая область» с заданным наименованием. Нажмите кнопку «ОК».