Antoshka

Путь к Файлу: /АКАДЕМИЯ / 5 курс / Iformatika / СМАОИ_методичка.doc

Ознакомиться или скачать весь учебный материал данного пользователя
Скачиваний:   0
Пользователь:   Antoshka
Добавлен:   20.12.2014
Размер:   467.5 КБ
СКАЧАТЬ

СМАОИ_методичка                   

                                           

                НАРОДНАЯ УКРАИНСКАЯ АКАДЕМИЯ

 

 

                                  

 

 

 

 

 

 

 

 

 

 

СОВРЕМЕННЫЕ МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ

 

 

Методическое пособие

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Издательство НУА

 

НАРОДНАЯ УКРАИНСКАЯ АКАДЕМИЯ

 

 

 

 

 

 

 

 

СОВРЕМЕННЫЕ МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ

 

Методическое пособие для студентов,

обучающихся по специальности

8.030507 – Перевод

(кредитно-модульная система)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Харьков

Издательство НУА

2009


УДК 004.9(072+075.8)

ББК 73я73р30-2+32.973.202я73р30-2

         М 74

 

Утверждено на заседании кафедры информационных технологий и математики Народной украинской академии

Протокол № 11 от 01.06.2009

 

 

  Автор-составитель О. В. Лазаренко

Рецензент д-р техн, проф. ХНУРЭ Е. А. Соловьева

 

 

 

М 74

 
 


         Современные методы аналитической обработки информации: Метод. пособие для студентов, обучающихся по специальности 8.030507 – Перевод (кредит.-модул. система) / Нар. укр. акад. [Каф. информ. технологий и математики; Авт.-сост. О. В. Лазаренко].– Х.: Изд-во НУА, 2009.– 38 с.

 

 

Пособие предназначено для самостоятельной работы студентов. Содержит программу и тематический план, задания к лабораторным работам, методические рекомендации по изучению тем и выполнению заданий, рекомендуемую литературу.

 

Посібник призначений для самостійної роботи студентів. Містить програму і тематичний план, завдання до лабораторних робіт, методичні рекомендації з вивчення тем і виконання завдань, рекомендовану літературу.

 

 

 

 

 

УДК 004.9(072+075.8)

ББК 73я73р30-2+32.973.202я73р30-2

 

 

 

©  Народная украинская академия, 2009


ВВЕДЕНИЕ

 

         Анализ и прогнозирование являются неотъемлемой частью современного бизнеса. Для решения стоящих перед ним задач все больше и больше организаций берут на вооружение современные программные средства, позволяющие оперативно получать нужную аналитическую информацию, прогнозировать и оптимизировать существующие бизнес процессы.

         Современный бизнес очень динамичен, поэтому скорость принятия решений и их точность приобретают огромное значение. Нельзя допускать, чтобы информация, хранящаяся в базах данных, лежала мертвым грузом. Она должна превращаться в ЗНАНИЯ и обеспечивать дальнейшее развитие. Знания– вот что сегодня является самым дорогим и важным. В основе технологии извлечения знаний лежит математический аппарат, ранее используемый только в узких областях высококлассными специалистами. Но сейчас технологии анализа становятся гораздо более доступными и используются для решения ежедневных задач.

         Аналитическая обработка – это сложнейший процесс, в котором отсутствует определенная стандартная технология, а, следовательно, требуются глубокие практические знания и умения.

Цель данного модуля состоит в подготовке референтов как квалифицированных специалистов, владеющих основными теоретическими знаниями и практическими методами анализа и обработки информации; умеющих профессионально работать с современными программными аналитическими средствами, самостоятельно изучать новые технологии анализа и применять их в практической деятельности.

Дисциплина «Современные методы аналитической обработки информации» принадлежит к группе специальных дисциплин, обеспечивающих подготовку студентов к будущей профессиональной деятельности в сфере анализа и обработки информации.

Дисциплина «Современные методы аналитической обработки информации»  состоит их двух модулей – «Системы и методы аналитической обработки информации» и «Реферирование». Данное методическое пособие посвящено первому модулю. По второй модулю см. методическое пособие «Информационные технологии референта: Реферирование».

Предметом модуля «Системы и методы аналитической обработки информации» является изучение существующих систем и методов аналитической обработки информации и применение информационных технологий для решения аналитических задач.

Научной основой модуля «Системы и методы аналитической обработки информации» является теория вероятности,  математическая статистика, теория выбора и принятия решений, теории интеллектуального анализа данных (нейронные сети, генетические алгоритмы и др.).

Методологическую основу модуля «Системы и методы аналитической обработки информации» составляют методы и средства создания аналитических документов, способы оптимизации информационно-аналитической деятельности референта.

Модуль «Системы и методы аналитической обработки информации» имеет выраженную практическую направленность с опорой на твердые знания теории вопроса. Умения и навыки, полученные студентами в ходе изучения модуля, ориентированы на применение в работе референта при подготовке и составлении аналитических документов по актуальным социальным, экономическим и финансовым вопросам  в условиях рыночных отношений.

Модуль «Системы и методы аналитической обработки информации» базируется на базовой подготовке по информатике и специализированной подготовке в области многомерного анализа данных и систем поиска информации в Интернете. Для достижения необходимого уровня практических знаний и умений предполагается выполнение лабораторных работ и самостоятельное изучение современных технологий анализа информации.

Дисциплина «Современные методы аналитической обработки информации» изучается в девятом семестре. Общий объем дисциплины составляет 54 часа (из них 20 часов аудиторной работы и 34 часов самостоятельной работы). Объем модуля «Системы и методы аналитической обработки информации» составляет 30 часов из них 14 аудиторных часов и 16 часов для самостоятельной работы.

Аттестация по дисциплине «Системы и методы аналитической обработки информации» осуществляется в ходе зачета с учетом баллов, набранных в течение семестра.

Проверка теоретических знаний и практических навыков предусматривает:

 итоговый (сессионный) контроль во время зачета в соответствии с учебным планом;

 текущий контроль при проверке выполнения лабораторных заданий;

 тестирование с использованием компьютерных тестов.

Академические успехи студента определяются по рейтинговой 100-бальной шкале, а итоговые оценки – по 5-бальной.

Соотношения оценок национальной шкалы и шкалы Европейской кредитно-трансферной и аккумулирующей системы (ЕКТАС) выглядит следующим образом:

 

По шкале ЕКТАС

По национальной шкале

По рейтинговой шкале ХГУ «НУА»

А

5 (отлично)

85-100

ВС

4 (хорошо)

65-84

ДE

3 (удовлетворительно)

50-64

FX

2 (неудовлетворительно) с возможностью повторной сдачи зачета

25-59

F

2 (неудовлетворительно) с обязательным повторным изучением модуля учебной дисциплины

1-24

 

Общая сумма баллов складывается из баллов, полученных за каждую тему, максимальное количество которых приведено ниже в тематическом плане. Допуск к экзамену по дисциплине студент получает при положительном тестировании (оценка 5, 4 или 3) и выполнении всех лабораторных работ. Максимальное количество баллов за тему выставляется при безошибочном выполнении всех лабораторных работ и сдаче теста с использованием компьютерных контролирующих программ на оценку «отлично».

В результате изучения этого модуля студент должен

 

знать:

 базовые понятия изучаемого курса – информация, данные, знания, виды знаний и способы их представления, аналитические технологии;

 технологию KDD (knowledge discovery in databases): подготовка данных, выбор информативных признаков, очистка данных, применение методов Data Mining, постобработка данных и интерпретация полученных результатов;

 методы Data Mining для интеллектуального анализа данных: кластеризация, классификация, нейронные сети;

 методы анализа неструктурированной информации: TextMining;

 модели представления знаний, интеллект-карты (MindMap);

 

уметь:

 находить в Интернете и структурировать информацию в заданных предметных областях;

 осуществлять анализ собранных данных на основе аналитической платформы Deductor: импорт информации из произвольного источника данных, обработка данных (очистка, трансформация, построение моделей), отображение полученных результатов наиболее удобным образом (OLAP, таблицы, диаграммы, деревья решений и т.д.) и экспорт результатов.

 строить и применять поликатегориальные интеллект-карты для анализа информации, создания отчетов и презентаций.

 

быть ознакомленным с:

 основными средствами Business Intelligence и системами поддержки принятия решений;

 ведущими производителями систем аналитической обработки информации;

 интеллектуальными системами анализа текстов.

 


Тематический план учебной дисциплины

«Современные методы аналитической обработки информации»

Модуль 1. «Системы и методы аналитической обработки информации»

 

 

№ п/п

 

Темы

Количество часов

 

Форма контроля

Всего

В том числе

Лекции

Практич. занятия

Самост. работа

1.

2.

3.

4.

5.

6.

7.

Модуль 1. Системы и методы аналитической обработки информации

1.

Тема 1. Базовые понятия в системе информационной аналитики.

2

2

 

 

Тест

2.

Тема 2. Методы анализа неструктурированной информации.

8

1

 

4

Описание методов анализа с помощью ИК

3.

Тема 3. Интеллектуальные средства анализа и прогнозирования.

14

1

10

 

Комплексная лабораторная работа

 

4

Обзор систем KDD

4.

Тема 4. Технология глубинного анализа текстовой информации (Text Mining).

6

 

 

4

Обзор систем Text Mining

4

Описание технологии TextMining с помощью ИК

 

Итого

30

4

10

16

 

 

Задания для самостоятельной работы.

 

№ п/п

Тема

Индивидуальные

задания

Количество часов

Литература

1.

2.

3.

4.

5.

1.

Тема 2. Методы анализа неструктурированной информации.

Интеллект-карты как эффективный инструмент для анализа документов.

Описание методов анализа с помощью ИК.

4

[2], c. 68-120

2.

Тема 3. Интеллектуальные средства анализа и прогнозирования.

Обзор современных систем KDD

4

[6]

 

3.

Тема 4. Технология глубинного анализа текстовой информации (Text Mining).

Обзор систем Text Mining.

 

4

[4],

[7]

Описание технологии Text Mining с помощью ИК

4

[2], c. 159-168

 

Итого

 

16

 

 

 

Программа учебной дисциплины  

«Современные методы аналитической обработки информации»

Модуль 1. «Системы и методы аналитической обработки информации»

(9 семестр – 20 часов)

 

Тема 1. Базовые понятия в системе информационной аналитики.

 

            Виды знаний и способы их представления. Факты и эвристики, глубинные и поверхностные знания, жесткие и мягкие знания. Аналитические технологии. Назначение: прогнозирование, оптимизация. Традиционные аналитические технологии: детерминированные и вероятностные технологии. Новые аналитические технологии: KDD, OLAP, Data Mining, Text Mining.

 

Тема 2. Методы анализа неструктурированной информации.

 

Методы анализа неструктурированной информации. Что такое анализ информации. Этапы анализа информации: оценка информации, каталогизация и архивирование, реферирование информации, сопоставление информации и синтез данных. Варианты синтеза: описание и его методы, причинно-следственный анализ и его методы, гипотетический метод.

 

Тема 3. Интеллектуальные средства анализа и прогнозирования.

 

Технология обнаружения знаний в базах данных (KDD). Подготовка исходных данных для Data Mining. Методы Data Mining: кластеризация, классификация, нейронные сети. Кластеризация в Data Mining. Алгоритмы кластеризации. Реализация аналитических технологий на платформе Deductor. Архитектура системы. Решаемые задачи.

 

Тема 4. Технология глубинного анализа текстовой информации

 (Text Mining).

 

Text Mining – технология глубинного анализа текстовой информации. Фазы анализа Интернет-контента: поиск релевантных документов, извлечение информации, анализ полученных данных.  Основные задачи, решаемы с помощью технологии Text Mining: извлечение информации, автоматическое реферирование, классификация, кластеризация.  Применение технологии Text Mining.

 


Методические рекомендации и задания для самостоятельной работы

студентов

 

Модуль 1. «Системы и методы аналитической обработки информации» (9-й семестр – 36 часов)

 

Тема 1. Базовые понятия в системе информационной аналитики.

 

         Прежде чем переходить к изучению основных систем и методов аналитической обработки информации следует определиться с системой понятий, с которыми мы будем работать в дальнейшем.

 

 Базовые понятия.

Обратите внимание на тот факт, что, говоря об информационной деятельности и информационном сервисе, мы постоянно оперируем понятиями информация, данные, знания, документ.

Давайте определимся с этими понятиями, так как вся наша работа будет связана именно с ними.

Основным объектом нашей деятельности будет документ.

Документ (лат. documentum – свидетельство, способ доказательства) – это любой материальный носитель сведений с записанной на нем информацией, предназначенной для ее передачи во времени и пространстве.

Т. е. документ представляет собой материальный носитель, предназначенный для передачи информации. Можно сказать и по-другому:

Документ – это информация, зафиксирована в виде текста, звукозаписи, изображения или их сочетания и предназначенная для передачи во времени и пространстве.

Документы различаются по целевому назначению, по структуре, по периодичности, по характеру информации и т. д.

Мы видим, что документ определяется через понятие информации. Вспомним, что это такое. Мы говорили об определении информации, данном в кибернетике через понятие отражения.      К этому следует добавить и то, что информация не может существовать без физического носителя. Тогда можно сказать, что:

Информация – в наиболее общем определении – это отражение предметного мира с помощью знаков и сигналов.

Следовательно, у нас появляются такие цепочки понятий:

 

Предметный мир + отражение = Информация

 

Информация + материальный носитель = Документ

 

Информацию, полученную путем измерения, наблюдения, логических или арифметических операций, и представленную в форме, пригодной для постоянного хранения, передачи и (автоматизированной) обработки называют данными.

Данные – это информация, представленная в формализованном виде, что обеспечивает возможность её хранения, автоматической обработки и передачи, в частности, с помощью технических средств.

 

Информация + формализация = Данные

 

Данные бывают простые и сложные. Данные простого типа это – символы, числа и т. п. элементы, дальнейшее дробление которых не имеет смысла. Из элементарных данных формируются структуры (сложные типы) данных:  деревья, массивы (матрицы, множества и т. п.).

СМАОИ_методичка
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Знания – это информация, необходимая для принятия решений, т. е. истинная, достоверная, проверенная практикой информация.

 

Информация  + проверка истинности = Знания

 

Естественно, что для принятия различных решений может понадобиться и разная информация. Поэтому говорят о различных видах знаний. Рассмотрим некоторые из них.

Знания делят на факты и эвристики, глубинные и поверхностные, жесткие и мягкие.

Факты указывают на хорошо известные обстоятельства.

Эвристики основываются на индивидуальном опыте специалиста.

Глубинные знания отражают понимание сути явления, назначение и взаимосвязь его составляющих (это законы и теоретические основания).

Поверхностные знания представляют знания, полученные из опыта, внешние эмпирические ассоциации с каким-либо явлением.

Жесткие знания позволяют получать однозначные четкие результаты при заданных начальных условиях.

Мягкие знания допускают множественные, нечеткие решения, допускающие различные варианты.

Задачи с преобладанием глубинных и мягких знаний называют трудно формализуемыми. Для них характерны следующие особенности:

 задача не может быть определена в числовой форме (требуется символьное представление);

 алгоритмическое решение задачи не известно (хотя, возможно, и существует);

 цели задачи не могут быть выражены в терминах точно определенной целевой функции или не существует точной математической модели задачи.

Современная наука все чаще обращает свой взор на решение именно таких задач. Но как действовать в такой ситуации? Как можно обработать неформализованные знания? Решение таких задач лежит в сфере концептуального анализа знаний.

 

Аналитические технологии и их назначение.

 

v Что такое аналитические технологии?

            Аналитические технологии – это методики, позволяющие  оценить по известным данным значения неизвестных характеристик и параметров на основе существующих моделей, алгоритмов, теорем.

 

v Для кого предназначены аналитические технологии?

            Аналитические технологии нужны в первую очередь людям, принимающим важные решения – руководителям, аналитикам, экспертам, консультантам. Доход компании в большой степени определяется качеством этих решений – точностью прогнозов, оптимальностью выбранных стратегий.

 

v Для решения каких задач предназначены аналитические тнхнологии?

            Аналитические технологии нужны для решения реальных задач бизнеса и производства. Однако для них не существует четких алгоритмов решения. Руководители и эксперты решают такие задачи обычно на основе личного опыта. К числу аналитических задач относятся в первую очередь задачи прогнозирования и оптимизации.

         Прогнозирование – это предсказание будущих событий. Целью прогнозирования является уменьшение риска при принятии решений. Обычно, принимаемое решение определяется результатами прогноза (при этом предполагается, что прогноз правильный) с учетом возможной ошибки прогнозирования. Поскольку прогнозирование никогда не сможет полностью уничтожить риск при принятии решений, необходимо явно определять неточность прогноза. Используя при прогнозировании больше ресурсов, можно увеличить точность прогноза и уменьшить ошибки, связанные с неопределенностью при принятии решений.

Для решения таких задач используются аналитические технологии, позволяющие существенно повысить эффективность решений.

Оптимизирование – это выбор наилучшего варианта из числа возможных.

Традиционные технологии.

            К традиционным технологиям решения бизнес-задач относятся детерминированные и вероятностные методы, уже давно и достаточно успешно применяющиеся на практике.

 

         Детерминированные технологии

         Детерминированные технологии используются человеком уже много веков. За это время было создано огромное количество формул, теорем и алгоритмов для решения классических задач – определения объемов, решения систем линейных уравнений, поиска корней многочленов. Разработаны сложные и эффективные методы для решения задач оптимального управления, решения дифференциальных уравнений и т. д. Все эти методы действуют по одной и той же схеме.

 

СМАОИ_методичкамодель      известный алгоритм

СМАОИ_методичка         известные параметры         ответ

        

         Как видно из схемы, решение таких задач предполагает наличие заранее известного набора функций и параметров, а также наличие известной детерминированной модели, описывающей данную задачу (например, задача определения величины гипотенузы по известным катетам в прямоугольном треугольнике с использованием теоремы Пифагора). В таком случае в результате решения задачи мы получаем точный, единственно возможный ответ.

 

            Вероятностные технологии

            Если не удается построить детерминированные модели, применяется принципиально иной, вероятностный подход. Как правило, параметры вероятностных моделей изначально неизвестны, и для их оценки используются статистические методы, применяемые к выборкам наблюдаемых значений. Однако такого рода методы предполагают, что при этом известна  некоторая вероятностная модель задачи. Такие методы позволяют вычислить вероятность наступления анализируемого события.

 

данные                        

СМАОИ_методичкастатистика                        вероятностная модель

СМАОИ_методичка                  вероятностные параметры               прогноз

 

         На практике это чаще всего задачи, связанные с наблюдением случайных величин – например, задача прогнозирования курса акций.

 

         Недостатки традиционных технологий

            К сожалению, классические методики оказываются малоэффективными во многих практических задачах. Это связано с тем, что невозможно достаточно полно описать реальность с помощью небольшого числа параметров модели, либо расчет модели требует слишком много времени и вычислительных ресурсов. Вероятностные технологии также обладают существенными недостатками при решении практических задач. Даже если и существует простая зависимость, то ее вид заранее неизвестен. Отметим также, что статистические методы хорошо развиты только для одномерных случайных величин. Если же мы хотим учитывать для прогнозирования несколько взаимосвязанных факторов (например, объем сделок, курс доллара и т. д.), то придется обратиться к построению многомерной статистической модели. Однако в многомерной статистике за неимением лучшего нередко применяют малообоснованные эвристические методы, результаты применения которых далеко не всегда удовлетворяют пользователей.

 

Новые аналитические технологии.

            Из-за описанных выше недостатков традиционных методик в последние 10 лет идет активное развитие аналитических систем нового типа.

 

            OLAP

OLAP – это технология, обеспечивающая возможность многомерного анализа данных. На основе OLAP строятся системы поддержки принятия решений и системы подготовки отчетов. В подобных системах разрозненная информация представляется в виде многомерного куба, которым можно легко манипулировать, извлекая срезами нужную информацию.

 

            KDD

Knowledge Discovery in Databases (KDD) – это процесс поиска полезных знаний в «сырых данных». KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных, интерпретации полученных результатов. Безусловно, сердцем всего этого процесса являются методы DM, позволяющие обнаруживать знания.

 

            Data Mining

Data Mining – это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining – является одним из шагов Knowledge Discovery in Databases.

 

Text Mining

         Text  Mining – это технологии глубинного анализа текста с целью извлечения из него характерных элементов или свойств, которые могут использоваться как метаданные документа, ключевых слов, аннотаций, или отнесения документа к определенным категориям из заданной схемы их систематизации.

         В основе этих технологий лежат технологии искусственного интеллекта, имитирующие природные процессы, такие как деятельность нейронов мозга или процесс естественного отбора.

Чаще всего процесс обнаружения полезных знаний начинают с кластеризации имеющихся данных и затем переходят к более сложным методам анализа. Наиболее популярными и проверенными из этих технологий являются нейронные сети и генетические алгоритмы. Первые коммерческие реализации на их основе появились в 80-х годах и получили широкое распространение.

 

Основные задачи темы:

1. Разобраться в базовых понятиях дисциплины: знания, данные, информация, документ.

2. Изучить назначение аналитических технологий.

3. Разобраться, в чем состоят ограничения традиционных технологий.

4. Изучить, какие возможности появляются с использованием новых технологий анализа.

 

Вопросы для самоконтроля:

1. Что такое «информация» в общем случае?

2. Как соотносится понятие «информация» с понятиями «данные», «знания», «документ»?

3. Какие бывают знания?

4. Какие знания представляют наибольшую сложность для формализации?

5. Какие задачи относятся к числу аналитических?

6. В чем ограниченность традиционных технологий решения бизнес-задач?

7. Какие задачи позволяют решать новые аналитические технологии?

 

Вопросы для самостоятельного изучения:

1. Обработка информации с помощью интеллект-карт.

2. Анализ информации на основе ассоциаций с привлечением слов и изображений.

3. Структурирование интеллект-карт с помощью иерархий и категорий.

 

Тема 2. Методы анализа неструктурированной информации.

 

Существующие сегодня информационные технологии позволяют накапливать значительные объемы информации. Для автоматизации работы со структурированной информацией существует много достаточно известных и доступных инструментов, а обработку текстовой информации все еще (хотя прогресс в этом направлении наметился, о чем мы поговорим в следующем разделе)  приходится осуществлять вручную, при этом основным инструментом анализа текстовой информации  остается голова аналитика.

         Процедура анализа, осуществляемая аналитиком, включает в себя:

1) первичную оценку информации;

2) резюмирование информации – выделение основных фактов;

3) систематизацию и сопоставление информации;

4) синтез данных.

 

Первичная оценка информации.

         По каждому тексту необходимо принять решение о его ценности, целесообразности хранения и дальнейшего использования. Для этого осуществляется первичная оценка информации, результатом которой должен стать вывод о ее важности, точности, значимости.

         Важность информации определяется наличием связи ее с исследуемой проблемой и способностью информации внести вклад в процесс понимания проблемы. Иными словами, необходимо сопоставить данную информацию с вашими информационными потребностями и ответить на вопрос: сможет ли помочь она вам чем-то сейчас или в ближайшем будущем?

         Точность информации – это проявление достоверности, определяемое по следующим параметрам:

 наличию подтверждения из других источников;

 стыковке с другой информацией;

 авторитетности источника, из которого она поступила.

         Значимость информации – полнота, своевременность и достаточность для принятия решения.

 

Резюмирование (реферирование) информации.

         Данный этап особенно полезен в случае работы с большим объемом информации из разных источников. Он заключается в выборке из всего массива информации ключевых моментов и их фиксировании.

 

Систематизация и сопоставление информации.

         Данный этап имеет важное значение для последующего хранения и использования материала и осуществляется в два приема:

         1) систематизация сведений – разбиение всего массива информации на блоки по какому-либо признаку;

         2) сопоставление сведений – поверхностный анализ с целью выявления явных и возможных связей с объектом изучения и с иными сведениями.        

При использовании компьютерного анализа такие связи можно выявлять по датам, по месту свершения события, по названиям, по сферам интересов и т. д.

 Синтез данных.

Это наиболее важная процедура обработки информации – логическое объединение элементов информации, внешне не обладающих связями, в систему единой направленности.

Используемые варианты синтеза:

 Описание.

 Причинно-следственный анализ.

 Гипотетический метод.

 

Описание и его методы.

Описание – это модель описываемого объекта.

Описание производится в рамках той задачи, которую аналитик ставит перед собой. Описание служит лишь умозрительному познанию, показу различных сторон изучаемого объекта или события. С помощью описания информация приводятся к такому виду, который позволяет использовать ее в качестве материала для объяснения происходящего.

Описать событие – значит ответить на вопросы о его качественных и количественных сторонах: «какой?», «какое?», «какая?», «сколько?».

Описание отличается от простой констатации фактов, которая отвечает на вопросы «что?», «где?», «когда?».

При простой констатации фактов отмечается наличие или отсутствие явления, а при описании обращается внимание на его свойства. Главное при описании заключается в характеристике объекта, то есть в выяснении качеств, а особое внимание при этом уделяется качествам, свойственным только этому объекту либо узкому кругу объектов, то есть тому, что выделяет его из общей массы подобных.

 

Запомните!

Аналитик, прежде всего, должен выявить те качества явления, которые дают наиболее полное представление об  исследуемой стороне. Чем детальнее, правильнее в этом смысле описание, тем больше сведений дает оно о том, что описывается.

К числу методов описания относятся группировка и типологизация данных.

 

Группировка заключается в упорядочивании данных по определенным признакам и позволяет связать разрозненные факты в единую систему, соответствующую тому или иному предположению, рабочей гипотезе и т. п. Группировка может производиться по разным признакам в зависимости от задачи, поставленной автором. Например, по датам, по месту происшествия, по связи с неким объектом.

Типологизация – это поиск устойчивых сочетаний свойств исследуемых ситуаций, процессов, событий, фактов. Например, устойчивых признаков, характеризующих некоторую группу элементов в зависимости от их отношения к элементам других групп.    

 

Причинно-следственный анализ и его методы.

Причинно-следственный анализ осуществляется с целью получения новых знаний об анализируемом явлении, исходя из установления причинных связей этого явления с другими.

Причинная зависимость – связь явлений, одно из которых порождает другое.

Первое явление называется причиной, а второе следствием. Во времени причина всегда предшествует следствию. Но причинно-следственную связь нельзя сводить к обычной последовательности событий.  Для установления причинно-следственной связи используют методы, с помощью которых выясняется, можно ли считать предшествующее явление причиной последующего.

Метод исключения. Суть этого метода заключается в том, что, анализируя сложный комплекс причинно-следственных отношений, можно обнаружить непосредственную причину путем исключения всех предполагаемых обстоятельств, способных вызвать сходные события, кроме одного фактора, который после анализа и принимается за причину изучаемого явления.

Метод сходства. Использование данного метода необходимо тогда, когда интересующие события, причину которых аналитик хочет установить, возникают в самых разных обстоятельствах, но при этом всегда при наличии одного и того же фактора. Сущность метода сходства сводится к следующему: если исследуемое явление возникает в различных обстоятельствах, но при наличии одного общего фактора, то этот фактор и есть причина данного явления. Используя данный метод, можно изучить разные условия возникновения одного и того же события и вычислить из них один и тот же общий фактор, вызывающий это явление. С определенной долей вероятности можно утверждать, что этот фактор и есть причина, интересующая аналитика.

Метод одного различия сводится к сопоставлению случая, когда интересующее событие наступает, со случаем, когда оно не наступает. В обоих случаях должны быть одни и те же условия, за исключением одного, которое в одном из случаев отсутствует. Иначе говоря, если в одних и тех же обстоятельствах при наличии какого-либо фактора событие наступает, а при его отсутствии – нет, то этот фактор и есть причина изучаемого явления.

Метод сопутствующих изменений полезен, когда аналитик ищет причину события путем сравнения случаев, в каждом из которых это событие возникает, но имеет определенные особенности. Причем сравниваются случаи, которые имеют одинаковые обстоятельства, за исключением одного фактора, меняющегося от случая к случаю. Применение данного метода основывается на закономерности, в соответствии с которой любое изменяющееся явление, в случае изменения предшествующего ему события, есть либо его следствие, либо состоит с ним в причинной связи.

 

Гипотетический метод.

Очень часто началом объяснения анализируемого факта становится выдвижение гипотезы (предположения) об исследуемом факте, который пока недоступен для понимания.

Гипотеза представляет собой умозаключение, в котором есть неизвестные элементы.

Для выяснения этих неизвестных элементов аналитик прибегает к аналогии, индуктивным или дедуктивным умозаключениям.

Аналогией называется умозаключение, в котором на основании сходства двух фактов в одних признаках делается вывод о сходстве этих фактов и в других признаках.

По характеру сходства фактов аналогию делят на аналогию свойств и аналогию отношений.

Аналогия свойств предполагает сравнение двух фактов по признаку, являющемуся свойством одного из них (способность света и звука к распространению в пространстве делает их в этом аналогичными друг другу).

Аналогия отношений между фактами состоит в том, что сравниваемые факты могут не обладать сходными свойствами, и даже быть различными, но иметь сходные отношения с другими фактами (отношение между ядром атома и электронами аналогично отношению между Солнцем и планетами Солнечной системы).

Индуктивное умозаключение – умозаключение, в котором на основании знания части элементов класса делается вывод обо всех его элементах и о классе в целом.

В процессе индуктивного умозаключения мы движемся от известного к неизвестному, индукция позволяет нам из знаний одних явлений выводить знаниях о других, связанных с ними явлениях, поэтому вывод, полученный индуктивным методом, может быть как достоверным, так и вероятным.

В отличие от индукции, дедуктивные умозаключения всегда дают достоверное знание. Достаточно, чтобы посылки дедуктивного умозаключения были истинными и правильно связанными между собой.

Дедуктивное умозаключение – это умозаключение, в котором на основании общих свойств класса делается вывод о свойствах элемента данного класса.

Все эти методы, примененные корректным образом,  позволяют осуществлять качественный анализ информации и гарантируют логическую обоснованность полученных результатов.

 

Основные задачи темы:

1. Научиться проводить первичную оценку найденной информации с точки зрения ее важности, точности и значимости.

2. Научиться выделять в большом информационном массиве ключевые  для целей составления конкретного аналитического документа моменты.

3. Научиться систематизировать и сопоставлять имеющуюся информацию.

4. Осуществлять синтез отобранных данных, используя с этой целью различные варианты синтеза – описание, причинно-следственный анализ или гипотетический метод.

 

Вопросы для самоконтроля:

1. Для чего необходима первичная оценка найденной информации?

2. Какие методы используются при описании?

3. Какие методы используются в процессе причинно-следственного анализа?

4. Какие приемы используются при гипотетическом методе синтеза?

 

Вопросы для самостоятельного изучения:

1. Применение интеллект-карт для анализа документов.

2. Принятие решений на основе интеллект-карт.

 

Тема практического занятия: Применение методов анализа неструктурированной информации.

Лабораторная работа.

            Цель работы: Анализ неструктурированных документов.

            Порядок выполнения работы:

1. Проведите первичную оценку найденной информации с точки зрения ее важности, точности и значимости.

2. Выделите в документах ключевые  для целей составления аналитического документа сведения и факты.

3. Систематизируйте и сопоставьте полученную информацию.

4. Синтезируйте отобранные данные тремя различными способами – в виде описания, в процессе причинно-следственного анализа и выдвижения гипотезы.

Самостоятельная работа.

Цель работы: Анализ неструктурированных документов с помощью ИК.

Порядок выполнения работы:

1. Проанализируйте предложенную информацию с использованием интеллект-карты.

2. Сравните полученный результат с результатами в лабораторной работе.

3. Подготовьте отчет по результатам работы.

 

Тема 3. Интеллектуальные средства анализа и прогнозирования.

        

Технология обнаружения знаний в базах данных (KDD).

Проблема обнаружения знаний в базах данных приобрела сегодня большую актуальность. Это связано с тем, что в настоящее время  все большие объемы информации накапливаются и сохраняются в базах данных. Общим для этих данных является то, что они содержат большое количество скрытых закономерностей, являющихся весьма важными для принятия стратегических решений. Однако информационные массивы столь велики, что человеку не под силу разобраться в имеющихся данных. Для решения этой проблемы  созданы технологии обнаружения знаний в базах данных (KDD). Знания, получаемые в результате применения технологии KDD, представляют правила, описывающие связи между свойствами данных (деревья решений), часто встречающиеся шаблоны (ассоциативные правила), а также результаты классификации (нейронные сети) и кластеризации данных (карты Кохонена) и др.

Технология KDD выполняется в несколько этапов. Особенно важным является этап подготовки данных для последующего извлечения из них закономерностей, так как никакой самый изощренный метод сам по себе не даст хороший результат, если исходные данные подготовлены плохо. Вопрос качества исходных данных является критически важным. Именно качество данных часто становится решающим фактором для получения полезных результатов анализа. Поэтому собственно анализу предшествует несколько этапов подготовки данных.

 

         Основные этапы технологии KDD.

         Процесс  KDD осуществляется в 5 этапов.

 

1 этап. Подготовка исходного набора данных. Этот этап заключается в создании набора данных, в том числе из различных источников, выбора обучающей выборки и т.д. Для этого должны существовать развитые инструменты доступа к различным источникам данных.

2 этап. Предобработка данных. Для того чтобы эффективно применять методы Data Mining, следует обратить серьезное внимание на вопросы предобработки данных. Так как данные могут содержать пропуски, шумы, аномальные значения, могут быть избыточны, недостаточны, в некоторых задачах требуется дополнить данные некоторой априорной информацией, прежде чем подать данные на вход системы необходимо привести их к виду корректному с точки зрения используемого метода DM. Вместе с тем, иногда размерность исходного пространства может быть очень большой, и тогда следует применить специальные алгоритмы понижения размерности как путем отбора значимых признаков, так и отображения данных в пространство меньшей размерности.

3 этап. Трансформация, нормализация данных. Этот шаг необходим для тех методов, которые требуют, чтобы исходные данные были в каком-то определенном виде. Нейронные сети, скажем, работают только с числовыми данными, причем они должны быть нормализованы.

4 этап. Data Mining. На этом шаге применяются различные алгоритмы для нахождения знаний. Это нейронные сети, деревья решений, алгоритмы кластеризации, установления ассоциаций и т.д.

5 этап. Постобработка данных. Интерпретация результатов и применение полученных знаний для решения бизнес-задач.

Методы Data Mining.

При решении практических задач, необходимо определиться, какой метод подходит в данном конкретном случае. Иногда приходится использовать несколько методов, чтобы получить желаемый результат. К числу наиболее часто применяемых методов относятся следующие.

1. Кластеризация – это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.

2. Классификация – это отнесение объектов (наблюдений, событий) к одному из заранее известных классов.

3. Регрессия, в том числе задачи прогнозирования, – установление зависимости непрерывных выходных от входных переменных.

4. Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).

5. Последовательные шаблоны – установление закономерностей между связанными во времени событиями.

6. Анализ отклонений – выявление наиболее нехарактерных шаблонов.

Суть и цель методов data mining можно выразить в нескольких словах: это методы, которые предназначены для поиска в больших объемах данных неочевидных, объективных и практически полезных закономерностей.

         Неочевидных означает, что найденные закономерности не обнаруживаются стандартными статистическими методами обработки информации или даже опытными экспертами. Дело в том, что стандартные статистические методы преимущественно ориентированы лишь на обобщение информации, а не ее глубокий анализ. Эксперты же будут искать закономерности на основе своего прошлого опыта. Если закономерность не укладывается в его представление, он ее никогда не обнаружит.

         Объективных означает, что обнаруженные закономерности будут полностью соответствовать действительности в отличие, например, от экспертного мнения, которое всегда основано на субъективном и, следовательно, ограниченном, видении ситуации.

Практически полезных означает, что полученные выводы имеют свое конкретное бизнес-значение, которое позволит повысить прибыльность бизнеса.

Вот определение, которое дал Григорий Пиатецкий-Шапиро, один из ведущих мировых экспертов в области Data Mining:

 

Data mining – это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Кластеризация в Data Mining.

Одной из фундаментальных задач в области анализа данных и Data Mining является кластеризация – объединение в группы схожих объектов. Список прикладных областей, где она применяется, широк: сегментация изображений, маркетинг, борьба с мошенничеством, прогнозирование, анализ текстов и многие другие. Как мы уже говорили, кластеризация часто выступает первым шагом при анализе данных. После выделения схожих групп применяются другие методы, для каждой группы строится отдельная модель. Число методов разбиения групп объектов на кластеры довольно велико – несколько десятков алгоритмов и еще больше их модификаций. Однако нас интересуют алгоритмы кластеризации с точки зрения их применения в Data Mining.

Кластеризация выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель на всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой их них отдельную стратегию.

Очень часто данные, которые предназначены для дальнейшей обработки методом кластеризации, имеют следующие важные особенности:

1) высокая размерность (тысячи полей) и большой объем (сотни тысяч и миллионы записей) таблиц баз данных и хранилищ данных (сверхбольшие базы данных);

2) наборы данных содержат большое количество числовых и категорийных атрибутов.

Все атрибуты, или признаки объектов делятся на числовые (numerical) и категорийные (categorical).

Числовые атрибуты – атрибуты, которые могут быть упорядочены в пространстве.

Категорийные атрибуты – атрибуты, которые не могут быть упорядочены.

Например, атрибут "возраст" – числовой, а "цвет" – категорийный. Приписывание категорийным атрибутам значений происходит путем измерений выбранным типом шкалы, а это, вообще говоря, представляет собой отдельную задачу.

Большинство алгоритмов кластеризации предполагают сравнение объектов между собой на основе некоторой меры близости (сходства).

Мерой близости называется величина, имеющая предел и возрастающая с увеличением близости объектов.

Меры сходства создаются по специальным правилам, а выбор конкретных мер зависит от задачи, а также от шкалы измерений. В качестве меры близости для числовых атрибутов очень часто используется евклидово расстояние, вычисляемое по формуле:

 

СМАОИ_методичка

 

Для категорийных атрибутов распространена мера сходства Чекановского-Серенсена

(2x| t1∩ t2 |/(| t1 | + | t2 |))

 

 

и Жаккара

(| t1∩ t2 | / (| t1 |Ų | t2 |)).

 

Потребность в обработке больших массивов данных в Data Mining определила требования, которым, по возможности, должен удовлетворять алгоритм кластеризации:

1) минимально возможное количество проходов по базе данных;

2) работа в ограниченном объеме оперативной памяти компьютера;

3) работу алгоритма можно прервать с сохранением промежуточных результатов, чтобы продолжить вычисления позже;

4) алгоритм должен работать, когда объекты из базы данных могут извлекаться только в режиме однонаправленного курсора (т.е. в режиме навигации по записям).

Алгоритм, удовлетворяющий данным требованиям (особенно второму), будем называть масштабируемым (scalable).

Масштабируемость – важнейшее свойство алгоритма, зависящее от его вычислительной сложности и программной реализации. Имеется и более емкое определение.

Алгоритм называют масштабируемым, если при неизменной емкости оперативной памяти с увеличением числа записей в базе данных время его работы растет линейно.

Но далеко не всегда требуется обрабатывать сверхбольшие массивы данных. Поэтому на заре становления теории кластерного анализа вопросам масштабируемости алгоритмов внимания практически не уделялось. Предполагалось, что все обрабатываемые данные будут умещаться в оперативной памяти, главный упор всегда делался на улучшение качества кластеризации. Трудно соблюсти баланс между высоким качеством кластеризации и масштабируемостью. Поэтому в идеале в арсенале Data Mining должны присутствовать как эффективные алгоритмы кластеризации микромассивов, так и масштабируемые для обработки сверхбольших баз данных.

 

Алгоритмы кластеризации.

По способу разбиения на кластеры алгоритмы бывают двух типов: иерархические и неиерархические.

Классические иерархические алгоритмы работают только с категорийными атрибутами, когда строится полное дерево вложенных кластеров. Здесь распространены агломеративные методы построения иерархий кластеров – в них производится последовательное объединение исходных объектов и соответствующее уменьшение числа кластеров. Иерархические алгоритмы обеспечивают сравнительно высокое качество кластеризации и не требуют предварительного задания количества кластеров.

Неиерархические алгоритмы основаны на оптимизации некоторой целевой функции, определяющей оптимальное в определенном смысле разбиение множества объектов на кластеры.

В этой группе популярны алгоритмы семейства k-средних (k-means, fuzzy c-means, Густафсон-Кесселя), которые в качестве целевой функции используют сумму квадратов взвешенных отклонений координат объектов от центров искомых кластеров. Кластеры ищутся сферической либо эллипсоидной формы.

 

СМАОИ_методичка

 

Рисунок 1. Результат кластеризации алгоритмом k-means

 

Среди неиерархических алгоритмов, не основанных на расстоянии, следует выделить EM-алгоритм (Expectation-Maximization). В нем вместо центров кластеров предполагается наличие функции плотности вероятности для каждого кластера с соответствующим значением математического ожидания и дисперсией. В смеси распределений ведется поиск их параметров (средние и стандартные отклонения) по принципу максимума правдоподобия. Алгоритм EM и есть одна из реализаций такого поиска.

Проблема заключается в том, что перед стартом алгоритма выдвигается гипотеза о виде распределений, которые оценить в общей совокупности данных сложно.

Еще одна проблема появляется тогда, когда атрибуты объекта смешанные – одна часть имеет числовой тип, а другая часть – категорийный. Например, требуется вычислить расстояние между объектами с атрибутами (Возраст, Пол, Образование):

{23, муж, высшее}       (1)

{25, жен, среднее}       (2).

Первый атрибут является числовым, остальные – категорийными. Если воспользоваться классическим иерархическим алгоритмом с какой-либо мерой сходства, то придется каким-то образом произвести дискредитацию атрибута "Возраст". Например, так:

{до 30 лет, муж, высшее}     (1)

{до 30 лет, жен, среднее}     (2).

При этом часть информации, мы, безусловно, потеряем. Если же определять расстояние в евклидовом пространстве, то возникнут вопросы с категорийными атрибутами. Понятно, что расстояние между пол муж и жен равно 0, т.к. значения этого признака находятся в шкале наименований. А атрибут образование можно измерить как в шкале наименований, так и в шкале порядка, присвоив каждому значению определенные балл. Вопрос – какой вариант выбрать?

А что делать, если категорийные атрибуты важнее числовых?

Решение этих проблем ложится на аналитика. Кроме того, при использовании алгоритма k-средних и ему подобных возникают трудности с пониманием центров кластеров у категорийных атрибутов, априорным заданием количества кластеров.

Алгоритм оптимизации целевой функции в неиерархических алгоритмах, основанных на расстояниях, носит итеративный характер, и на каждой итерации требуется рассчитывать матрицу расстояний между объектами. При большом числе объектов это неэффективно и требует серьезных вычислительных ресурсов. Придется делать много проходов по набору данных.

Имеет массу недостатков в k-means сам подход с идеей поиска кластеров сферической или эллипсоидной формы. Подход хорошо работает, когда данные в пространстве образуют компактные сгустки, хорошо отличимые друг от друга. А если данные имеют вложенную форму, то ни один из алгоритмов семейства k-means никогда не справится с такой задачей. Также алгоритм плохо работает в случае, когда один кластер значительно больше остальных, и они находятся близко друг от друга – возникает эффект "расщепления" большого кластера (рис. 2).

СМАОИ_методичка

 

Рисунок 2. Эффект расщепления большого кластера

 

Впрочем, исследования в области совершенствования алгоритмов кластеризации идут постоянно. Разработаны интересные расширения алгоритма k-means для работы с категорийными атрибутами (k-modes) и смешанными атрибутами (k-prototypes). Например, в k-prototypes расчет расстояний между объектами осуществляется по-разному в зависимости от типа атрибута.

Таким образом, не существует единого универсального алгоритма кластеризации. При использовании любого алгоритма важно понимать его достоинства и недостатки, учитывать природу данных, с которыми он лучше работает и способность к масштабируемости.

 

Реализация аналитических технологий на платформе Deductor.

            Deductor является аналитической платформой, т.е. основой для создания законченных прикладных решений. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.

            Deductor предоставляет аналитикам инструментальные средства, необходимые для решения самых разнообразных аналитических задач: корпоративная отчетность, прогнозирование, поиск закономерностей – эти и другие задачи, где применяются такие методики анализа, как OLAP, Knowledge Discovery in Databases и Data Mining.

Deductor ориентирован исключительно на аналитическую обработку. Первичные данные обычно хранятся в различных СУБД, учетных системах, офисных документах. Для использования информации, хранящейся в разнородных системах, предусмотрены гибкие механизмы импорта-экспорта. Для упрощения обмена информацией используется виртуальное хранилище данных.

 

Архитектура системы.

            Deductor состоит из 5-ти частей – многомерного хранилища данных Deductor Warehouse, аналитического приложения Deductor Studio, рабочего места конечного пользователя Deductor Viewer, Deductor Server для удаленной аналитической обработки и Deductor Client для доступа к серверу аналитической обработки.

Deductor Studio – аналитическое ядро платформы Deductor. В Deductor Studio включен полный набор механизмов, позволяющий:

1) импортировать информацию из произвольного источника данных;

2) провести весь цикл обработки (очистку, трансформацию данных, построение моделей);

3) отобразить полученные результаты наиболее удобным образом (OLAP, таблицы, диаграммы, деревья решений и др.);

4) экспортировать результаты.

Импорт

Анализ любой информации в Deductor Studio начинается с импорта данных. В результате импорта данные приводятся к виду, пригодному для последующего анализа при помощи всех имеющихся в программе механизмов. Природа данных, формат, СУБД и прочее не имеют значения, так как механизмы работы со всеми унифицированы.

Экспорт

Наличие механизмов экспорта позволяет пересылать полученные результаты в сторонние приложения. Например, прогноз продаж передавать в систему для формирования заказа на поставку, либо разместить подготовленный отчет на корпоративном web-сайте.

Обработка

Под обработкой в Deductor Studio подразумевается любое действие, связанное с преобразованием данных: фильтрация, построение модели, очистка и прочее. В блоке обработки данных производятся самые важные, с точки зрения анализа, действия. Наиболее важной особенностью механизмов обработки, реализованных в Deductor Studio, является то, что полученные в результате обработки данные можно опять обрабатывать любым из доступных системе методов. Таким образом, можно строить сколь угодно сложные сценарии обработки.

Визуализация

Визуализировать данные в Deductor Studio можно на любом этапе обработки. Система самостоятельно определяет, каким способом она может это сделать. Так, если будет обучена нейронная сеть, то помимо таблиц и диаграмм, можно просмотреть граф нейросети. Пользователю необходимо выбрать нужный вариант из списка и настроить несколько параметров.

Deductor Viewer является рабочим местом конечного пользователя. Так как все необходимые операции выполняются автоматически при помощи подготовленных ранее сценариев обработки, конечному пользователю нет необходимости задумываться о способе получения данных и механизмах их обработки, необходимо лишь выбрать интересующий отчет.

Deductor Warehouse – многомерное кросс-платформенное хранилище данных, аккумулирующее всю информацию необходимую для анализа предметной области. Использование единого хранилища позволяет обеспечить удобный доступ, высокую скорость обработки, непротиворечивость информации, централизованное хранение и автоматическую поддержку всего процесса анализа данных.

Deductor Server предназначен для удаленной аналитической обработки. Он предоставляет возможность как автоматически 'прогонять' данные через существующие сценарии на сервере, так и переобучать имеющиеся модели. Использование Deductor Server позволяет реализовать полноценную трехзвенную архитектуру, в которой он выполняет функцию сервера приложений.

 

Решаемые задачи.

            Реализованные в Deductor технологии могут использоваться как в комплексе, так и по отдельности для решения широкого спектра бизнес-задач:

 Системы корпоративной отчетности. Готовое хранилище данных и гибкие механизмы предобработки, очистки, загрузки, визуализации позволяют быстро создавать законченные системы отчетности в сжатые сроки.

 Анализ тенденций и закономерностей, планирование, ранжирование. Реализованная интуитивно понятная модель данных позволяет проводить анализ по принципу «что-если», соотносить гипотезы со сведениями, хранящимися в базе данных, находить аномальные значения, оценивать последствия принятия бизнес решений.

 Прогнозирование. Построив модель на исторических примерах, можно использовать ее для прогнозирования ситуации в будущем. По мере изменения ситуации нет необходимости перестраивать все, необходимо всего лишь дообучить модель.

 Управление рисками. Реализованные в системе алгоритмы позволят достаточно точно определиться с тем, какие характеристики объектов и как влияют на риски, благодаря чему можно прогнозировать наступление рискового события и заблаговременно принимать необходимые меры к снижению размера возможных неблагоприятных последствий.

 Анализ данных маркетинговых и социологических исследований. Например, анализируя сведения о потребителях, можно определить, кто является вашим клиентом и почему. Как изменяются их пристрастия в зависимости от возраста, образования, социального положения, материального состояния и множества других показателей. Понимание этого будет способствовать правильному позиционированию продуктов и стимулированию продаж.

 Обнаружение объектов на основе нечетких критериев. Часто встречается ситуация, когда необходимо обнаружить объект, основываясь не на четких критериях, таких, как стоимость, технические характеристики продукта, а на размытых формулировках, например, найти продукты, похожие на ваши, с точки зрения потребителя.

            Это только небольшой список решаемых задач. Фактически речь идет о любых задачах, где требуется консолидировать данные, отобразить их различными способами, построить модели и применить полученные модели к новым данным. В дальнейшем мы познакомимся с работой этой программы при решении задач анализа корпоративных данных.

Основные задачи темы:

1. Познакомиться с технологией обнаружения знаний в базах данных.

2. Разобраться в назначении этапов реализации технологии KDD.

3. Изучить методы Data Mining, применяемые при анализе данных.

4. Изучить возможности алгоритмов кластеризации.

5. Познакомиться с аналитической платформой Deductor: архитектурой и задачами, решаемыми с ее помощью.

 

Вопросы для самоконтроля:

1. С чем связано появление новых аналитических технологий?

2. Как осуществляется процесс KDD?

3. Какой этап KDD предопределяет успех или неудачу анализа данных?

4. Какие методы Data Mining используются для анализа данных?

5. В чем суть и цель методов Data Mining?

6. Почему кластеризация выступает первым этапом анализа данных?

7. Какие особенности имеют данные, предназначенные для дальнейшей обработки методом кластеризации?

8.  На основе чего в большинстве алгоритмов кластеризации происходит сравнение объектов между собой?

9. Каким требованиям должен удовлетворять алгоритм кластеризации?

10.  Чем различаются классические и не классические алгоритмы?

11. Для чего предназначена аналитическая платформа Deductor?

12. Из каких частей состоит Deductor система и  для чего они предназначены?

13. Для решения каких задач используется система Deductor?

 

Вопросы для самостоятельного изучения:

1. Классы систем Data Mining.

2. Разработчики систем Data Mining.

 

Тема практического занятия: Применение методов Data Mining для анализа информации.

Комплексная лабораторная работа.

            Цель работы: Практическое освоение технологии KDD с использованием аналитической платформы Deductor.

            Порядок выполнения работы:

1. Найдите в Интернете информацию о предложенном бытовом приборе.

2. Выпишите наиболее важные технические и эргономические характеристики, определяющие спрос на прибор.

3. Оцените влияние выделенных факторы на спрос в 100-балльной системе. Информацию поместите в таблицу. В последнем столбце таблицы укажите единицы измерения для каждого фактора. Если фактор относится к качественным характеристикам, введите свою шкалу оценки.

        

Факторы

Баллы

Единицы измерения

 

 

 

 

4. Продумайте структуру базы данных для ввода информации о бытовом приборе и создайте базу данных.

5. Проанализируйте цены на бытовой прибор в разных магазинах (3 произвольных магазина) и продумайте структуру таблицы Цена.

6. Постройте и заполните новую таблицу Цена. Для этого:

 

С помощью запроса на Обновление замените цены в долларах из таблицы Цена на цены в гривнах.

Для этого умножьте значения из поля Цена на 5,05 и укажите условие отбора записей.        

С помощью запроса на Выборку посчитайте среднее значение цен по всем моделям, используя статистическую функцию Avg. Запрос сохраните под именем СредняяЦена.

Посчитайте отклонение цен от средней цены. Для этого  по таблице Цена и запросу СредняяЦена с помощью запроса на создание таблицы создайте таблицу Отклонение с полями:

 

Марка

Модель

СредняяЦена

Отклонение

 

С сортировкой по возрастанию

 

С расчетом значения

 

Поле Отклонение создайте сами, введя в строку «Поле» в свободном столбце запроса выражение:

 

Отклонение: [Цена]-[Avg-Цена]

 

С помощью запроса создайте таблицу Данные_для_ДМ с полем Отклонение, отражающим среднее отклонение цены по конкретной модели, и полями из таблицы Модель.

7. С помощью системы Deductor импортируйте данные из БД, проведите предобработку данных и кластеризацию.

8. Проанализируйте полученный результат.

Самостоятельная работа.

            Цель работы: Обзор современных систем KDD.

            Порядок выполнения работы:

1. Найдите в Интернете информацию о современных системах KDD.

2.  Подготовьте ИК по найденному материалу.

 

Тема 4. Технология глубинного анализа текстовой информации

 (Text Mining).

 

Мы познакомились со средствами анализа неструктурированной информации традиционными средствами, т.е. путем использования основных законов логики. Вместе с тем сегодня появляются информационные технологии, направленные на оказание помощи человеку в этой сложной работе. Основные трудности в анализе информации возникают в двух случаях:

1) сжатые сроки выполнения работы;

2) чрезмерно большие объемы информации.

Использование информационных технологий в таких случаях является единственно возможным решением. Сегодня для анализа неструктурированной (а проще говоря, текстовой) информации применяется технология Text Mining.  

Text Mining  – это технология глубинного анализа неструктурированных текстовых данных (сообщений электронной почты, документов и др.) с целью их классификации, поиска закономерностей и преобразования в структурированные данные для дальнейшей обработки. В основе большинства алгоритмов анализа текстовых данных лежат технологии Data Mining, возможности которых вы себе уже хорошо представляете. Основной сферой применения этой технологии в наши дни является Интернет, в котором 90% процентов циркулирующей информации представлено в текстовом виде.

Рассмотрим возможность применения Text Mining в информационном поле Интернета. Процесс анализа Интернет-контента можно условно разделить на три фазы:

1. поиск релевантных документов;

2. извлечение нужной информации;

3. анализ полученных данных.

В результате получается технологическая цепочка поисковик – Text Mining – инструмент анализа.

Интеграция элементов указанной цепочки осуществляется через базу данных. Для автоматизации этого процесса в идеале нужен механизм, который запросит информацию у поисковика, сам просканирует документы, обнаружит искомые факты, структурирует их, сохранит в базе и сообщит о выполненном задании. Тогда аналитик должен будет только открыть отчеты и проанализировать результаты. Пока на практике это выглядит иначе. Все три звена цепочки реализуются с помощью отдельных технологий. На технологиях поиска информации мы сейчас останавливаться не будем. О них мы говорили при изучении систем поиска информации в Интернете. Остановимся подробнее на технологиях глубинного анализа текста Text Mining

 

Основные задачи, решаемы с помощью технологии Text Mining.

1. Извлечение информации (Information Extraction) – извлечение фактов, предназначенное для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации:

 

а) извлечение слов или групп слов, которые с точки зрения пользователя важны для описания содержания документа (Feature (Entity) Extraction). Это могут быть упоминания персон, организаций, географических мест, терминов предметной области и других слов или словосочетаний. Извлекаемые слова также могут быть наиболее значимыми словосочетаниями, характеризующими документ по его основной теме;

б) выявление различного рода связи между извлеченными словами (Feature (Entity) Association Extraction). Технологии более сложные с технологической точки зрения. Например, даже если выбранные слова упомянуты в разных документах, но имеют какую-то общую характеристику (время, место и т. д.), система может с большой степенью определенности определить, есть между ними какая-то связь или нет;

в) извлечение слов, распознавание фактов и событий, а также извлечение информации из этих фактов (Relationship, Event and Fact Extraction). Самый сложный вариант извлечения информации. Например, система может сделать заключение, что Иванов купил компанию “N”, даже если в тексте содержатся только косвенные указания на это событие. Поисковая система здесь беспомощна. Пользуясь лишь поисковиком, мы должны были бы идентифицировать этот факт по всем ключевым словам, которые его характеризуют. А технология Text Mining делает это сама, причем в соответствии с заданными ограничениями отличает относящиеся к делу факты от тех, что никак с ними не связаны. Например, если мы проводим анализ сделок купли-продажи компаний, система отнесет факты “А.И.Иванов купил буханку хлеба” и “А.И.Иван купил компанию “N»” к разным категориям.

2. Автоматическое реферирование, аннотирование (summarization) – построение краткого содержания документа по его полному тексту.

3. Классификация, категоризация (categorization) — отнесение документа или его части к одной или нескольким категориям. Категории могут определять тематическую, жанровую, эмоциональную, оценочную направленность текста.

4. Кластеризация (clusterization) – объединение документов в группы по принципу их схожести.

 

Применение технологии Text Mining.

Благодаря описанным возможностям информационные технологии проникают в область фундаментального анализа. Фундаментальный анализ предполагает, в частности, обработку потока новостной информации, которые касаются мировой экономики, экономики страны, отрасли, конкретного эмитента, поскольку на поведение рынка существенное воздействие оказывают события, которые нельзя спрогнозировать заранее: отставка первых лиц государства, военные конфликты, политические кризисы, похищения, неожиданности предвыборных кампаний, стихийные бедствия, природные катаклизмы и т. п.

Существует целый ряд проектов одновременного анализа новостных публикаций в СМИ и анализа финансовой информации, поступающей с финансовых рынков, с целью установления корреляционных связей между «плохими» и «хорошими» новостями и повышением или понижением курсов акций.

В основе анализа новостных публикаций может лежать классификация текстов, когда данная статья относится к определенной классификационной категории (сигнал «плохие новости» или «хорошие новости»), и вызывающей соответствующие изменения на рынке ценных бумаг. Некоторые эксперты даже утверждают, что новостной анализ – это наиболее надежный способ предсказать цены на рынке ценных бумаг. Ежедневно каждая крупная компания выпускает в среднем 60 документов, вопрос в том, как выделить среди них те публикации, которые оказывают существенное влияние на рынок и как именно к ним применить средства обработки естественного языка (Natural Language Processing Tools – NLPT).

Система, используя NLPT, должна анализировать новостные статьи и предсказывать поведение рынка ценных бумаг. В качестве входа используются новостные статьи и данные рынка ценных бумаг. Из этих данных строится  модель, которая выявляет корреляцию между некоторыми чертами, обнаруженными в этих статьях и изменениях рыночных цен.

Один из таких проектов, основанный на технологии Text mining, –Financial Information Grid. В этом проекте новостной поток обрабатывается многопроцессорной (Grid) системой. Содержание поступивших новостей и время их опубликования сопоставляются с данными с финансовых рынков. Выделяется 26 направлений, для анализа предложений используется так называемая локальная грамматика автоматного типа.

Одним из основных источников новостей при этом является Dowjones newswires website (http://www.dowjonesnews.com).

Из этого источника, отбираются важные статьи и сохраняются в базе данных. Выбираются важные понятия, сопоставляются с понятиями и трендами. В данном случае рассматривается сильная гипотеза эффективного рынка,  когда цены рынка включают всю информацию, которая заключена в первоначальных ценах и первоначально опубликованной информации, так что когда появляется новая статья, рынок ценных бумаг немедленно реагирует на информацию.

Между сформированными в таком виде описаниями новостей и текущими ценами активов на рынке ценных бумаг устанавливаются статистические связи, позволяющие прогнозировать изменения цен в зависимости от характера новостей.

Таким образом, мы видим, что системы, построенные по принципу технологической связки, позволяют составлять различного рода рейтинги и прогнозы на основе информации, содержащейся в открытых и корпоративных источниках.

Поэтому основные усилия разработчиков аналитических систем направлены на интеграцию средств Text Mining с источниками документов, поисковиком и аналитическими инструментами. Сегодня поставщики инструментов Text Mining снабжают свои продукты возможностями интеграции с источниками документов (в основном с Web-ресурсами) и с базами данных через файлы в формате XML. Однако для этого пользователям предоставляется  набор SDK (software development kit – набор для разработчиков программного обеспечения), применение которого подразумевает довольно дорогую дальнейшую разработку. Кроме этого основной проблемой использования этих технологий является сложность настройки и поддержки таких инструментов. Это обусловлено спецификой компьютерной лингвистики, оперирующей терминами синтаксиса и семантики. Как правило, конечные пользователи и разработчики далеки от этих материй, а в итоге возможности таких инструментов используются лишь на 5—10%.

Вместе с тем благодаря этим технологиям пользователь уже избавлен от необходимости вручную просматривать тысячи документов и подбирать ключевые слова. За него это делает система. Появляются дополнительные возможности автоматической классификации и сопоставления подобных документов. Кроме того, программа способна сама распознавать смысловые элементы текста, например, факты, события, и передавать их на последующую обработку.

            Исходя из вышесказанного, можно так охарактеризовать нынешний этап развития аналитических технологий:

1. Инструменты анализа, в частности BI и Data Mining, во всём мире становятся стандартом, и все больше специалистов опирается на них как на основные средства создания аналитической среды.

2. Технология Text Mining, включая средства интеграции с источниками информации и аналитическими инструментами, используется на практике уже сегодня. Со временем их применение будет только расширяться, поскольку объемы доступной и полезной информации растут с каждым днем, а потребность в их анализе по-прежнему не удовлетворена.

3. Развиваются и сами научные области — компьютерная лингвистика, методы анализа текстов. Появились консультанты, в основную сферу деятельности которых входит решение подобных задач. Привлечение этих экспертов делает проекты такого рода исключительно эффективными.

 

Основные задачи темы:

1. Познакомиться с положением дел в области глубинного анализа текстов.

2. Разобраться в возможностях использования технологии Text Mining для решения бизнес-задач.

3.  Познакомиться с принципом организации систем, работающих в режиме технологической цепочки поисковик – Text Mining – инструмент анализа.

 

Вопросы для самоконтроля:

1. Почему возникла необходимость в использовании глубинного анализа текстовой информации?

2. Какие задачи решаются с помощью технологии Text Mining?

3. Как технология Text Mining используется для бизнес-анализа?

4. Какие задачи решаются с помощью систем, построенных по принципу технологической связки?

 

Вопросы для самостоятельного изучения:

1. Применение интеллект-карт для анализа документов.

2. Принятие решений на основе интеллект-карт.

 

Тема практического занятия: Применение методов анализа неструктурированной информации.

Лабораторная работа.

Цель работы: Знакомство с системами Text Mining и их разработчиками.

Порядок выполнения работы:

1. Найдите в Интернете информацию о системах Text Mining и их разработчиках.

2. Составьте вопросы по данной теме и напишите на них ответы.

3. Составьте глоссарий по данной теме.

Самостоятельная работа.

Цель работы: Анализ понятия Text Mining с помощью интеллект-карты.

Порядок выполнения работы:

1. Проанализируйте предложенную технологию с помощью вопросной интеллект-карты.

2. Сравните полученную карту с картой по технологии Data Mining.

3. Опишите сходство и различие двух технологий.

 

 

 


СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ

 

1. Барсегян А. А. Методы и модели анализа данных: OLAP и Data Mining / А. А.Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. – СПб.: БХВ-Петербург, 2004 336 с.

2. Бьюзен Т. Супермышление / Т. Бьюзен, Б. Бьюзен. – Мн|.: ООО «Попурри», 2003. – 304 с|із|.

3. Дюк В. Data Mining: учебный курс / В. Дюк, А. Самойленко – СПб: Питер, 2001. – 368 с|із|.

4. Ланде Д. В. Поиск знаний в Internet. Профессиональная работа / Д. В. Ланде. – М.: Издательский дом «Вильямс», 2005. – 272 с.

Паклин Н.Б. Бизнес-аналитика: от данных к знаниям / Паклин Н.Б., Орешков В.И. – СПб.: Изд-во: Питер, 2009. – 624 с.

5. Романовский А. Г. Логика. / А. Г. Романовский, С. Н. Пазынич, П. П. Резников – Харьков. – НТУ «ХПИ», 2004. –  492 с.

6. Системы Data Mining в Интернете. – Режим доступа: www.basegroup.ru,http://www.basegroup.ru, http://www.snowcactus.ru/, http://www.bambooweb.com/articles/d/a/Data_Mining.html

7. Системы Text Mining – Режим доступа: http://www.bambooweb.com/articles/t/e/Text_mining.html

 

СОДЕРЖАНИЕ

ВВЕДЕНИЕ   3

ТЕМАТИЧЕСКИЙ ПЛАН МОДУЛЯ 1. «СИСТЕМЫ И МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ»  6

Задания для самостоятельной работы. 6

ПРОГРАММА МОДУЛЯ 1. «СИСТЕМЫ И МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ»  7

Тема 1. Базовые понятия в системе информационной аналитики. 8

Базовые понятия. 8

Аналитические технологии и их назначение. 10

Традиционные технологии. 11

Новые аналитические технологии. 12

Основные задачи темы: 13

Вопросы для самоконтроля: 13

Вопросы для самостоятельного изучения: 13

Тема 2. Методы анализа неструктурированной информации. 14

Первичная оценка информации. 14

Резюмирование (реферирование) информации. 14

Систематизация и сопоставление информации. 15

Синтез данных. 15

Основные задачи темы: 18

Вопросы для самоконтроля: 18

Вопросы для самостоятельного изучения: 18

Тема практического занятия: Применение методов анализа неструктурированной информации. 18

Лабораторная работа. 18

Самостоятельная работа. 18

Тема 3. Обнаружение знаний в базах данных. 19

Технология обнаружения знаний в базах данных (KDD). 19

Методы Data Mining. 20

Кластеризация в Data Mining. 21

Алгоритмы кластеризации. 23

Реализация аналитических технологий на платформе Deductor. 25

Архитектура системы. 26

Решаемые задачи. 27

Основные задачи темы: 28

Вопросы для самоконтроля: 28

Вопросы для самостоятельного изучения: 28

Тема практического занятия: Применение методов Data Mining  для анализа информации. 29

Комплексная лабораторная работа. 29

Самостоятельная работа. 30

Тема 4. Технология глубинного анализа текстовой информации  30

(Text Mining). 30

Основные задачи, решаемы с помощью технологии Text Mining. 31

Применение технологии Text Mining. 32

Основные задачи темы: 34

Вопросы для самоконтроля: 34

Вопросы для самостоятельного изучения: 34

Тема практического занятия: Применение методов анализа неструктурированной информации. 34

Лабораторная работа. 34

Порядок выполнения работы: 34

Самостоятельная работа. 34

Порядок выполнения работы: 34

СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ    35

 

Наверх страницы

Внимание! Не забудьте ознакомиться с остальными документами данного пользователя!

Соседние файлы в текущем каталоге:

На сайте уже 21970 файлов общим размером 9.9 ГБ.

Наш сайт представляет собой Сервис, где студенты самых различных специальностей могут делиться своей учебой. Для удобства организован онлайн просмотр содержимого самых разных форматов файлов с возможностью их скачивания. У нас можно найти курсовые и лабораторные работы, дипломные работы и диссертации, лекции и шпаргалки, учебники, чертежи, инструкции, пособия и методички - можно найти любые учебные материалы. Наш полезный сервис предназначен прежде всего для помощи студентам в учёбе, ведь разобраться с любым предметом всегда быстрее когда можно посмотреть примеры, ознакомится более углубленно по той или иной теме. Все материалы на сайте представлены для ознакомления и загружены самими пользователями. Учитесь с нами, учитесь на пятерки и становитесь самыми грамотными специалистами своей профессии.

Не нашли нужный документ? Воспользуйтесь поиском по содержимому всех файлов сайта:



Каждый день, проснувшись по утру, заходи на obmendoc.ru

Товарищ, не ленись - делись файлами и новому учись!

Яндекс.Метрика