Дипломная работа на тему "Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике"

ГлавнаяИнформатика → Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике




Не нашли то, что вам нужно?
Посмотрите вашу тему в базе готовых дипломных и курсовых работ:

(Результаты откроются в новом окне)

Текст дипломной работы "Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике":


Министерство образования Российской Федерации

Омский Государственный Университет

Математический факультет

Горбань Павел Александрович

ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ НЕЙРОННЫХ СЕТЕЙ:

АПРОБАЦИЯ, ПРОЕКТИРОВАНИЕ ПО,

ИСПОЛЬЗОВАНИЕ В ПСИХОЛИНГВИСТИКЕ

Дипломная работа

Научный руководитель:

Член-корреспондент РАН

В. В. Шайдуров

Омск – 2002

Оглавление

Введение.. 4

Цель работы.. 4

Основные задачи и сследования. 4

Основные результаты работы, полученные лично автором.. 4

Апробация работы.. 5

Публикации. 5

Глава 1. Проблема извлечения знаний и обзор методов извлечения знаний 6

Заказать дипломную - rosdiplomnaya.com

Уникальный банк готовых защищённых на хорошо и отлично дипломных проектов предлагает вам скачать любые работы по желаемой вами теме. Высококлассное написание дипломных проектов по индивидуальным требованиям в Москве и в других городах РФ.

1.1 Знание и приобретение знаний. 6

1.1.1 "Знание". 6

1.1.2. Приобретение знаний. 8

1.2. Методы извлечения и приобретения знаний. 8

1.2.1. Приобретение знаний, обучение и обобщение по примерам в теории классических экспертных систем. 9

1.2.1.1. Трудности при разработке экспертных систем. 11

1.2.2. Методы извлечения знаний из таблиц данных. 12

1.2.2.1. Технология извлечения знаний из таблиц данных. 12

1.2.2.2. Таблица эмпирических данных. 13

1.2.2.3. Статистические методы извлечения знаний из таблицы данных. 15

1.2.3. Методы идентификации систем. 15

1.2.4. Другие методы обработки данных. 16

1.3. Требования к технологии извлечения знаний. 17

Глава 2. Нейронные сети.. 19

2.1. Коннекционизм.. 19

2.2. Элементы нейронных сетей. 20

2.3. Основные архитектуры нейронных сетей. 21

2.4. Обучение нейронных сетей как минимизация функции ошибки. 22

Глава 3. Упрощение нейронной сети. 27

3.1. Что такое упрощение нейронной сети и зачем оно нужно. 27

3.2. Задача извлечения знаний из нейронной сети. 28

3.3. Методы упрощения нейронных сетей. 29

3.3.1. Контрастирование синапсов нейросети. 30

3.3.2. Контрастирование нейронов нейросети. 32

3.3.3. Контрастирование входных сигналов нейросети. 35

3.3.4. Бинаризация синапсов. 36

3.3.5. Упрощение нелинейных преобразователей нейронов. 37

3.3.6. Дополнительные модификации алгоритмов контрастирования. 37

3.3.7. Методы модификации структуры обученной сети. 38

3.4. Требования к процессу упрощения сети для извлечения знаний. 38

3.5. Упрощающие операции над нейронной сетью.. 39

3.6. Процедура комплексного упрощения нейронной сети. 40

Глава 4. Методы извлечения знаний из искусственных нейронных сетей 41

4.1. Существующие методы извлечения знаний из обученной нейросети 41

4.1.1. Методы на основе квантования сигналов сети. 42

4.1.2. Методы извлечения знаний параллельно с обучением нейросети. 44

4.1.3. Методы извлечения знаний из обученной нейросети. 46

4.2. Методы извлечения знаний: требования к методам.. 50

4.3. Методология извлечения явных знаний, использующая технологию комплексного упрощения нейросети. 52

4.4. Приемы повышения вербализуемости нейронной сети. 56

4.4.1. Добавление синдрома в набор входных симптомов. 56

4.4.2. Построение иерархии продукционных правил. 57

4.4.3. Ручное конструирование сети из фрагментов нескольких логически прозрачных сетей. 59

Глава 5. Нейросетевой анализ структуры индивидуального пространства смыслов.. 60

5.1. Семантический дифференциал. 60

5.2. MAN-многообразия. 63

Литература.. 65

Публикации автора по теме диплома.. 69

Приложение 1. Плакаты для защиты диплома. 71

Приложение 2. Статья: Горбань П. А. Нейросетевой анализ структуры индивидуального пространства смыслов. "Нейрокомпьютеры": разработка, применение. 2002, No 4. С. 14-19. 84

Введение

Цель работы

Целью дипломной работы является апробация гибкой технологии извлечения знаний из нейронных сетей, настраиваемой с учетом предпочтений пользователя. Тестирование, пробная эксплуатация и разработка новой версии программных средств, реализующих данную технологию. Проведение и сследований индивидуальных пространств смыслов на основе данной технологии.

Основные задачи и сследования

1.  Анализ разработанных методов извлечения явных знаний из нейронных сетей с указанием их ограничений и областей применимости.

2.  Апробация гибкой настраиваемой на основе предпочтений пользователя технологии извлечения знаний, опирающейся на предварительное проведение комплексного упрощения нейронной сети, выполняющегося с учетом сформированных пользователем требований к результирующему виду извлекаемых знаний.

3.  Тестирование, пробная эксплуатация и разработка новой версии программных средств, реализующих данную технологию.

4.  Усовершенствование метода семантического дифференциала Осгуда при помощи технологии разреживания обучаемых нейронных сетей.

Основные результаты работы, полученные лично автором

1.  Предложены следующие приемы, упрощающие и делающие более гибким процесс вербализации (семантического анализа – осмысления в терминах проблемной области) извлеченного из сети набора правил:

a)  На основе гипотезы о неединственности извлекаемых правил и учитывая, что разные фрагменты сети (поднаборы правил) будут более или менее правдоподобны и интерпретируемы, предложено конструирование новой, более понятной пользователю нейронной сети из наиболее просто интерпретируемых фрагментов других сетей, решающих ту же задачу.

b)  Предложено добавление выходного сигнала некоторого фрагмента сети (содержательно интерпретируемого и правдоподобного с точки зрения пользователя) в качестве нового интегрального признака в число независимых признаков таблицы данных, и решение задачи извлечения знаний на основе полученного расширенного набора признаков.

2.  Разработано техническое задание на новую версию программы-нейроимитатора, реализующую предложенные технологии.

3.  Усовершенствован метод семантического дифференциала Осгуда при помощи технологии разреживания обучаемых нейронных сетей. Проведена серия экспериментов, заключающихся в и сследовании индивидуальных смысловых пространств, проинтерпретированы их результаты. Предложена гипотеза о структуре индивидуального пространства смыслов: оно состоит из многообразия малой размерности, задаваемого культурой («ман-многообразия» от немецкого безличного местоимения «man») и сравнительно небольшого множества индивидуальных отклонений, которые могут быть важны для диагностики. Каждая культура имеет небольшое количество специфических для нее ман - многообразий (субкультур).

Апробация работы

Основные положения работы докладывались на VI, VII Всероссийских семинарах "Нейроинформатика и ее приложения", (Красноярск, 1998, 2000 гг), I, Всероссийской научно-технической конференции "Нейроинформатика" (Москва, МИФИ, 1999 г.), VI Международной конференции "Математика. Компьютер. Образование" (1999г, Пущино), International Joint Conference on Neural Networks (1999г, Washington, DC, USA), XXXVII Международной научной студенческой конференции "Cтудент и научно-технический прогресс": Информационные технологии. Новосибирск, НГУ, 1999 (награждена Дипломом 3 степени).

Публикации

По теме диплома автором опубликована 1 статья в научном журнале и 4 тезиса докладов.


Глава 1. Проблема извлечения знаний и обзор методов извлечения знаний

Введение

Первый параграф определяет понятия "знание" и "приобретение знания".

Второй параграф посвящен обзору существующих методов извлечения и приобретения знаний. Рассматриваются существующие в теории классических экспертных систем методы приобретения знаний, рассматриваются использующиеся для извлечения знаний из таблиц данных методы статистического анализа, математического моделирования и идентификации.

Третий параграф описывает набор требований к направленной на конечного пользователя технологии извлечения знаний.

1.1 Знание и приобретение знаний

1.1.1 "Знание"

Под знанием понимается достаточно широкий спектр информации. В [1,с.430-432] представлена следующая классификация типов знаний:

1.  Базовые элементы знания (информация о свойствах объектов реального мира). Связаны с непосредственным восприятием, не требуют обсуждения и используются в том виде, в котором получены.

2.  Утверждения и определения. Основаны на базовых элементах и заранее рассматриваются как достоверные.

3.  Концепции – перегруппировки или обобщения базовых элементов. Для построения каждой концепции используются свои приемы (примеры, контрпримеры, частные случаи, более общие случаи, аналогии).

4.  Отношения. Выражают как элементарные свойства базовых элементов, так и отношения между концепциями. К свойствам отношений относят их большие или меньшие правдоподобие и связь с данной ситуацией.

5.  Теоремы и правила перезаписи – частный случай продукционных правил (правил вида "если…, то…, иначе…") с вполне определенными свойствами. Теоремы не представляют пользы без экспертных правил их применения.

6.  Алгоритмы решения. Необходимы для выполнения определенных задач. Во всех случаях они связаны со знанием особого типа, поскольку определяемая ими последовательность действий оказывается оформленной в строго определенном порядке, в отличие от других типов знаний, где элементы знания могут появляться и располагаться без связи друг с другом.

7.  Стратегии и эвристика. Врожденные или приобретенные правила поведения, которые позволяют в конкретной ситуации принять решение о необходимых действиях. Человек постоянно пользуется этим типом знаний при формировании концепций, решении задач и формальных рассуждениях.

8.  Метазнание. Присутствует на многих уровнях и представляет знание того, что известно, определяет значение коэффициента доверия к этому знанию, важность элементарной операции по отношению ко всему множеству знаний. Сюда же относятся вопросы организации разного типа знаний и указания, где, когда и как они могут быть использованы.

В настоящей работе первому типу знаний будет соответствовать информация об измеримых (или наблюдаемых) свойствах объектов реального мира. Именно эта информация сведена в таблицу данных типа "объект-признак". Остальным типам знаний соответствуют ограничения на диапазоны значений, которые могут принимать признаки объекта (второй тип), информация о взаимозависимости признаков и о возможности описания одних признаков через другие, информация о статистических свойствах значений признаков,… Фактически, нас интересует знание второго и последующих типов – знание, которое человек добывает в процессе анализа информации, рассуждений, обобщений, проведения аналогий.

Естественным является требование представления знаний в виде, допускающем "тиражирование" – возможность передачи знаний другим людям. Для первого типа знаний возможно получение как объективных (точно измеренных) значений свойств объектов реального мира, так и субъективных, персонализированных, чувственных оценок значений этих свойств. Для знаний последующих типов для возможности передачи вводятся требования объективизации, достоверности, непротиворечивости [1].

Информационные единицы (знания) обладают гиб­кой структурой [2]. Для них выполняется "принцип матрешки" – рекурсивная вложенность одних информационных единиц в другие (это наблюдается и на примере вышеприведенной классификации из [1]).

Каж­дая информационная единица может быть включена в состав любой другой, и из каждой информационной единицы можно выделить некоторые составляющие ее единицы. Т. е. между отдельными информационными еди­ницами возмож­но установление отношений типа "часть – целое", "род – вид" или "элемент – класс".

Для информационных единиц одного уровня иерархии семантика отношений может носить декларативный или процедурный характер [2]: две или более информационных единицы могут быть связаны декларативными отношениями "одновременно", "причина – следствие" или "быть ря­дом", либо процедурными отношениями типа "аргу­мент – функция".

Можно различать отношения структу­ризации, процедурные отношения, каузальные отношения и семантические отношения. С помощью первых задаются иерархии информационных единиц, вторые несут процедурную информацию, позволяющую находить (вычислять) одни информационные единицы через другие, третьи задают причинно-следст­венные связи, четвертые соответствуют всем остальным отношениям [2].

1.1.2. Приобретение знаний

Приобретением знаний называется выявление знаний из источников и пре­образование их в нужную форму (например, перенос в базу знаний экспертной системы) [2]. Источни­ками знаний могут быть книги, архивные документы, содержимое других баз знаний и т. п., т. е. некоторые объективизированные знания, переведенные в форму, которая делает их доступными для потребителя. Другим типом зна­ний являются экспертные знания, которые имеются у специалистов, но не зафи­ксированы во внешних по отношению к ним хранилищах. Экспертные знания являются субъективными. Еще одним видом субъективных знаний являются эмпирические знания, полученные путем наблюдения за окружающей средой. Ввод в базу знаний объективизированных знаний не представляет проблемы, выявление и ввод субъективных экспертных знаний до­статочно трудны. Для извлечения и формализации экспертных знаний разработано множество стратегий интервьюирования эксперта и множество моделей представления знаний [2].

В когнитивной психологии изучаются формы репрезентации знаний, характерные для человека: представление класса понятий через его элементы; представление понятий класса с помощью базового прототипа, отражающего наиболее типичные свойства объектов класса; представ­ление с помощью признаков [3]. Форма репрезентации знаний определяет используемую методологию выявления знаний и модель представления знаний.

1.2. Методы извлечения и приобретения знаний

К настоящему времени сформировалось три основных направления извлечения знаний. Эти направления могут использовать одни и те же математические методы; подходы, первоначально разработанные в рамках некоторого направления, могут применяться для решения задач из другого направления. Вот эти направления:

1.  Методы самообучения и приобретения знаний в теории классических экспертных систем (Параграф 1.2.1).

2.  Извлечение знаний из таблиц данных. Включает теорию статистических выводов и другие методы анализа данных (Параграф 1.2.2).

3.  Теория идентификации систем (Параграф 1.2.3).

1.2.1. Приобретение знаний, обучение и обобщение по примерам в теории классических экспертных систем

Исследуется автоматизированный процесс получения знаний, объясняющих имеющиеся факты и способных объяснять, классифициро­вать или предсказывать новые. В общем виде задача формулирует­ся так [2]: по совокупности наблюдений (фактов) F, совокупности требований и допущений к виду результирующей гипотезы H и совокупности базовых знаний и предположений, включающих зна­ния об особенностях предметной области, выбранном способе представления знаний, наборе допустимых операторов, эвристик и др., сформировать гипотезу Н: HÞF (Н "объясняет" F).

Общий вид гипотезы Н зависит от цели обобщения и выбранного способа представления знаний. Методы обобщения, включающие модели классификации, формирования понятий, распознавания образов, обнаружения закономерностей, определяются целями обобщения, способами представления знаний, общими характеристиками фактов, критериями оценки гипотез.

Для обобщения по выборкам совокупность фак­тов F имеет вид обучающей выборки – множества объектов, каждый из которых сопоставляется с именем некоторого класса. Целью обобщения в этом случае может являться:

-  формирование понятий: построение по данным обучающей выборки для каждого класса максимальной совокупности его общих характеристик [4];

-  классификация: построение по данным обучающей выборки для каждого класса минимальной совокупности характеристик, которая отличала бы элементы класса от элементов других классов;

-  определение закономерности последовательного появления событий.

К методам обобщения по выборкам относятся лингвистические модели, методы автоматического синтеза алгоритмов и программ по при­мерам и другие [2].

В методах обобщения по данным априорное разделение фактов по классам отсутствует. Здесь могут ставиться следующие цели:

-  формулирование гипотезы, обобщающей данные факты;

-  выделение образов на множестве наблюдаемых данных, группировка данных по признакам (задача формиро­вания понятий, определенная в модели обобщения по выборкам, также часто ставится без априорного разбиения обучающей выборки по классам) [4];

-  установление закономерностей, характеризующих совокупность наблюдаемых данных [5].

Рассмотрим кратко связь между задачами обобщения и классификации и задачами, решаемыми в рамках теории вероятностей и математической статистики. В математической статистике ставятся и решаются задачи вывода новых знаний на основании анализа совокупности наблюдений, при этом устанавливаются частотные закономерности появления событий: определяются общий вид и параметры функций распределения вероятно­стей событий по данным наблюдений, делаются выводы о степени статистиче­ской зависимости наблюдаемых случайных величин, проверяются гипотезы о характеристиках случайного события. Действительно, в задаче формализации и вывода знаний о реальном мире нельзя не учитывать наличия стати­стических закономерностей в его проявлениях. Общая же задача формирования гипотез по данным наблюдений не ограничивается установлением статистических закономерностей. Так, разработаны формально-логические модели выдвижения гипотез [6], которые используются в теории искусственного интеллекта.

С точки зрения способа представления знаний и допущений на общий вид объектов наблюдений, методы обобщения делятся на методы обобщения по признакам и структурно-логические (или концептуальные) методы [2]. В первом случае объекты представляются в виде совокупности значений косвенных признаков. Методы обоб­щения и распознавания по признакам различаются для качественных (номинальных или порядковых) и количественных (измеримых) значений признаков. Структурно-логические методы, в отличие от признаковых, предназначены для решения задачи обобщения на множестве объектов, имеющих внутреннюю логическую структуру (последовательности событий, иерархически организованные сети, характеризуемые как признаками и свойствами объектов – элементов сети, так и отношениями между ними). В формально-логических системах, использующих структурно-логические методы обобщения, вывод общих следствий из данных фактов называют ин­дуктивным выводом. Сформулированы основные вопросы, на которые долж­ны давать ответы индуктивные логики и методы выдвижения гипотез:

1.  Явля­ется ли гипотеза Н обоснованной данным знанием?

2.  Существуют ли методы обосно­вания Н при данном знании?

3.  Каковы условия для Н при данном знании, такие, что Н дает наиболее разумное и интересное объяснение?

4.  Существуют методы для выдвижения гипотез на основании данного знания, дающих наи­более разумное и интересное объяснение изучаемого явления?

В экспертных системах (ЭС) для представления знаний об объектах используются обычно модификации языка исчисления предикатов без ограничения арности предикатных символов или адекватные им по выразительной мощности семантические сети [2]. Моделям обобщения на семантических сетях свойственны черты как алгоритмов обобщения по признакам, так и индуктивной логики. Здесь также определяется набор операторов, используе­мых при формировании обобщенного представления (гипотезы) Н, и выдвига­ются критерии оценки "интересности" и обоснованности гипотез. Кроме того, в этих моделях широко используется характерный для обобщения по качест­венным признакам [7] аппарат теории покрытий и устанавливаются отношения на множестве значений при­знаков объектов-элементов сети. Методами структурного обобщения реша­ются обычно задачи классификации, формирования понятий, анализа сцен [2].

Для задачи обобщения по признакам известен следующий результат: каков бы ни был реальный вид разделяющей функция y (в общем случае – индуктив­ной гипотезы Н) и алгоритм ее формирования по обучающей выборке, всегда найдется такая (непустая) обучающая выборка, что сформированная функция y ' (гипотеза Н') явится некорректной (ложной).

В связи с этим гипотезы принято оценивать с точки зрения их "разумности", "рациональности", "интересности". В [6] рациональ­ность ответа на вопрос 1 (см. выше) индуктивного вывода понимается следующим обра­зом. Пусть F – имеющиеся истинные утверждения, а j – эмпирические данные. Тогда для порождаемой ложной гипотезы F, jÞy вероятностная мера наблюдения y на j должна быть мала (например, меньше 0,05).

Можно оценивать гипотезы с точки зрения мощностей подмножеств покрываемых ими элементов обучаю­щей выборки. В ряде и сследований для подтверждения или отрицания выдвигаемой гипотезы используются методы автоматического порождения новых элементов обучающей выборки, которые выдаются для классификации эксперту. Решающее правило переопределяется, пока не будет достигнута равновесная ситуация [2].

1.2.1.1. Трудности при разработке экспертных систем

К настоящему времени в теории классических экспертных систем разработана формализованная технология извлечения и представления экспертных знаний. Однако, существует целый ряд трудностей [8]:

-  Построение ЭС не под силу конечному пользователю, не обладающему экспертными знаниями о проблемной области.

-  Необходимость привлечения человека-эксперта в проблемной области, который является носителем знаний. Кроме трудности нахождения эксперта (его может и не быть), необходимо добавить еще и возможные трудности взаимодействия эксперта со специалистом-когнитологом (именно последний, путем диалога с экспертом, оформляет полученные от эксперта знания в выбранном формализме представления знаний).

-  Имеющаяся оболочка ЭС и/или используемая ей модель представления знаний могут плохо подходить для выбранной проблемной области, задачи. Это часто вынуждает разрабатывать программный инструментарий "с нуля".

-  Процесс извлечения знаний из эксперта, их формализация, проверка на непротиворечивость и устранение противоречий очень длителен, несмотря на наличие программных средств автоматизации. До получения первого прототипа системы проходит длительное время (месяцы), и до этих пор нельзя определить, возможно ли построение ЭС, решающей поставленную задачу с заданной степенью точности и увеличивающей точность решения при дальнейшем пополнении базы знаний, либо достижение заданных характеристик системы невозможно. Это может вести к большим материальным затратам в последнем случае. Другими словами, один из самых первых этапов при разработке любой информационной системы – анализ реализуемости – при разработке ЭС откладывается до момента построения исследовательского прототипа системы.

Перечисленные трудности препятствуют широкому применению теоретических методов и программных оболочек ЭС на практике.

1.2.2. Методы извлечения знаний из таблиц данных

1.2.2.1. Технология извлечения знаний из таблиц данных

В настоящей работе исследуется извлечение знаний из таблиц данных при помощи математических или эмпирических методов обработки данных и моделирования. Фактически, в индустрии обработки данных существуют некоторые формальные схемы обработки данных и анализа результатов. Так, общая схема обработки данных методами математической статистики приведена в [9]:

1.  Анализ исследуемой системы или объекта. В ходе анализа определяются: основные цели и сследования на содержательном уровне; совокупность единиц (объектов, измерений,..), представляющих предмет и сследования; перечень показателей (свойств), характеризующих состояние или поведение каждой из исследуемых единиц; степень формализации и детализации этих показателей при сборе данных; моменты, требующие дополнительной проверки перед составлением детального плана и сследований; формализованная постановка задачи (например, на статистическом уровне, т. е. включающая вероятностную модель изучаемого явления и природу статистических выводов, к которым должен или может прийти исследователь в ходе обработки массива данных).

2.  Составление плана сбора исходной статистической информации: определение типа выборки – случайная, пропорциональная и т. п.; определение требуемого объема выборки и продолжительности наблюдений; планирование активного эксперимента (если допускается задачей и исследуемым объектом).

3.  Сбор данных и их ввод в ЭВМ.

4.  Первичная статистическая обработка данных: статистическое описание совокупностей данных с определением пределов варьирования переменных; анализ резко выделяющихся наблюдений, принятие решения об исключении выделяющихся наблюдений или дальнейшем уменьшении учета их вклада с помощью некоторой весовой функции, убывающей по мере роста степени аномальности наблюдений; восстановление значений пропущенных наблюдений; проверка однородности нескольких порций исходных данных (требуется при разделении в пространстве и/или времени моментов получения этих порций данных); проверка статистической независимости последовательных наблюдений; унификация типов переменных; экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация распределений.

5.  Составление плана вычислительного анализа статистического материала.

6.  Вычислительная реализация обработки данных.

7.  Осмысление, интерпретация и подведение итогов и сследования.

Как при использовании традиционных статистических методов анализа данных, так и при использовании нейронных сетей приведенная схема действий остается без изменений. При этом пункты 5-7 детализируются в зависимости от целей и задач и сследования и применяемых методов.

1.2.2.2. Таблица эмпирических данных

Строгие математические методы построения статистически достоверных решающих правил разработаны для случаев, когда о распределениях генеральных совокупностей образов известно абсолютно все: виды законов распределений и все их параметры, априорные вероятности появления образов, матрица потерь от ошибок и т. д.

К сожалению, при решении реальных задач такие условия не встречаются. Обучающая выборка каждого из k образов S1, S2,…,Sk представлена конечным числом mi реализаций, описанных n характеристиками x1,x2,…,xn. Сведений о законах и параметрах распределения генеральных совокупностей Gi образов нет. Неизвестна связь обучающей выборки с генеральными совокупностями (неизвестна степень "представительности" выборки). Владелец обучающей выборки имеет туманные представления об априорной вероятности появления различных образов Pi и о матрице стоимости ошибок распознавания Cij. Выборка может быть очень небольшой, в данных могут быть ошибки и пробелы, признаки могут быть измерены в разных шкалах [7], среди признаков могут быть неинформативные, "шумящие" признаки.

Для приведения ситуации к виду, при котором можно было бы применить тот или иной статистический алгоритм, нужно к имеющейся объективной информации добавить ряд субъективно выбираемых предположений или гипотез. Этот этап привнесения эвристических гипотез имеет место во всех случаях решения реальных задач, и поэтому деление алгоритмов на "строгие статистические" и "нестрогие эвристические" не имеет смысла [10].

Фактически, выдвижение и проверку новых гипотез для рассматриваемой таблицы данных можно рассматривать часть процесса извлечения знаний.

На применимость и качество работы отдельных методов большое влияние оказывает тип признаков (характеристик) объектов – дискретный (качественный), номинальный (порядковый) или количественный.

Во всех случаях вопрос о том, что является полезной информацией, совсем не очевиден и требует специального рассмотрения.

Представления о характере полезной информации, содержащейся в эмпирических данных, а зачастую и сам характер подобных данных не позволяют использовать для их обработки классические статистические методы. В связи с этим возникли совершенно новые задачи обработки эмпирических данных, а значит, и новые методы решения таких задач.

Это прежде всего задачи регрессионного, авторегрессионного и факторного анализов. В последние годы регрессионный и факторный анализ развивались особенно интенсивно и обогатились рядом новых моделей и методов, например, такими, как модель структурных уравнений регрессии [11], или методы группировки параметров.

Другая группа задач обработки данных – получение типологии изучаемых объектов. С ними связаны распознавание образов, методы автоматической классификации и т. п.

Новые эффекты обнаружились при комбинированном применении методов формирования факторов и методов автоматической классификации с тем, чтобы с каждым фактором была связана своя типология. Оказалось, что полученные типологии легко поддаются интерпретации и их можно понимать как системы терминов, позволяющих достаточно коротко описывать отдельные явления. Удалось создать обобщенный подход к обработке эмпирических данных самой различной природы, получивший название лингвистического [11].

1.2.2.3. Статистические методы извлечения знаний из таблицы данных

Рассмотрим статистические методы извлечения знаний из таблиц данных. Естественно, объем имеющейся выборки будет определять надежность статистического вывода – т. е. подтверждения или отклонения гипотезы или доверия к полученным параметрам модели. При этом неотрицательный результат статистической проверки гипотезы не означает, что высказанное предположение является наилучшим, единственно подходящим: просто оно не противоречит имеющимся выборочным данным, однако таким же свойством могут наряду с этой гипотезой обладать и другие гипотезы [9].

Кратко перечислим существующие на данный момент методы:

1.  Проверка гипотезы об аномальном измерении.

2.  Проверка гипотез о выборочных значениях характеристик случайной величины.

3.  Проверка гипотезы о распределении случайной величины и нахождение параметров этого распределения.

4.  Корреляционный анализ.

5.  Линейный регрессионный и авторегрессионный анализ.

6.  Факторный анализ и анализ главных компонент.

7.  Байесовские классификаторы в задаче бинарной классификации.

8.  Построение линейных и кусочно-линейных разделяющих поверхностей в задаче бинарной классификации.

9.  Автоматическая группировка объектов – методы автоматической классификации (кластеризации).

1.2.3. Методы идентификации систем

Под идентификацией понимается построение модели, с заданной точностью описывающей реакцию наблюдаемого объекта на внешнее воздействие (описываемое набором входных, независимых переменных).

Задаче идентификации посвящено огромное количество работ (см., например, библиографию в [13]), отличающихся не только типами объектов, которые необходимо идентифицировать, но и самими методами и алгоритмами идентификации. Среди алгоритмов идентификации чаще всего используются рекуррентные алгоритмы, позволяющие осуществлять идентификацию в режиме нормальной работы объекта. Иными словами, для рекуррентных алгоритмов не формируется обучающая выборка (таблица данных), а адаптация модели ведется с использованием только текущей пары "вход объекта – выход объекта". Однако нет никаких ограничений на использование рекуррентных алгоритмов для обработки таблицы ранее собранных данных об объекте.

Принципы формирования алгоритмов идентификации тесно связаны с выбором уравнения, использующего наблюдаемые данные и аппроксимирующего уравнение объекта, выбором критерия качества аппроксимации (функции потерь), выбором метода оптимизации критерия. Этот выбор до последнего времени был в значительной мере произволен и обусловил господство линейной аппроксимации уравнения объекта и квадратичного критерия (при этом задача идентификации сводилась к решению системы линейных уравнений). Но практика показала, что такой выбор не всегда приводит к положительным результатам.

В настоящее время разработана информационная теория идентификации [13], позволяющая оптимально выбирать уравнение аппроксимации, критерий, и алгоритм идентификации в зависимости от точки приложения к объекту помех, наличия той или иной информации о плотности распределения помех и параметров этого распределения, используемой целевой функции, априорной информации об искомом решении. Показана возможность улучшения алгоритмов за счет управления входными воздействиями.

1.2.4. Другие методы обработки данных

Существуют и другие методы обработки таблиц данных:

1.  Метод потенциальных функций [14] для решения задач классификации объектов с учителем.

2.  Методы непараметрической обработки данных:

-  байесовские классификаторы на основе непараметрических оценок условных плотностей распределения вероятности [12];

-  непараметрическая регрессия;

-  непараметрические алгоритмы идентификации объектов;

Однако использование этих методов для приобретения знаний невозможно, поскольку при этом не возникает нового отдельного "объекта" (например, регрессионного уравнения, уравнения разделяющей поверхности,…), которым можно манипулировать и который можно пытаться интерпретировать – такой объект заменяется обучающей выборкой. Конечно, для каждого метода можно определить оптимальные значения некоторых параметров ("заряды" классов для метода потенциальных функций, параметры сглаживания и вид ядерных функций для непараметрических методов), минимизирующих ошибку классификации или предсказания, но нахождение оптимальных значений этих параметров трудно интерпретировать как прибавление новых знаний.

1.3. Требования к технологии извлечения знаний

Возможности применения технологии извлечения знаний должны распространяться вплоть до индивидуального пользователя, имеющего возможность применять технологию извлечения знаний к доступных данных и конкретизирующего отдельные аспекты этой технологии в зависимости от своего собственного опыта и конкретной задачи. Это означает, что должно произойти коренное изменение технологии производства таких систем. Системы принятия решений, основанные на явных правилах вывода, создаются, как правило, группой специалистов, в числе которых – математики, программисты и предметные специалисты, ставящие задачи. Возможности настройки таких систем на конечного потребителя часто недостаточны. Приобретая такую систему, он часто сталкивается с ее неприменимостью к конкретным условиям работы (например, другой спектр лабораторных анализов или методов обследования, принятый в данной клинике). Выход – дать специалисту возможность самому конструировать ЭС исходя из конкретных условий, собственного опыта и опыта коллег. Такое конструирование должно производиться без знания предметным специалистом математического аппарата, требуя только обычных навыков работы на ЭВМ. В этой ситуации снимается психологическая проблема доверия к заключениям ЭС, которая работает, опираясь на опыт и знания того специалиста, который ее сконструировал, его коллег, которым он доверяет, и реальные данные, которые он сам получил в результате наблюдений [15].

Самообучающиеся ЭС принятия решений, диагностики и прогнозирования должны удовлетворять следующим требованиям [15]:

1.  Индивидуализация (настройка на конкретные наборы экспериментальных данных, индивидуальный опыт и знания специалиста);

2.  Динамическое развитие (накопление опыта системы в процессе функционирования, следуя изменениям в пунктах, перечисленных в предыдущем требовании);

3.  Возможность перенастройки при резком изменении условий, например, при перенесении в другой регион;

4.  Способность к экстраполяции результата. Требование, обратное индивидуальности. Система не должна резко терять качество работы при изменении условий;

5.  Возможность конструирования с нуля конечным пользователем (специалист должен иметь возможность придумать совершенно новую ЭС и иметь возможность просто и быстро создать ее);

6.  “Нечеткий” характер результата. Решение, выдаваемое системой, не должно быть окончательным. Оно может быть вероятностным или предлагать сразу несколько вариантов на выбор. Это дает возможность специалисту критически оценивать решение системы и не лишает его инициативы в принятии окончательного решения.

7.  ЭС является только советчиком специалиста, не претендуя на абсолютную точность решения. Она должна накапливать опыт и знания и значительно ускорять доступ к ним, моделировать результат при изменении условий задачи. Ответственность за решение всегда лежит на специалисте.

8.  Универсальность такой технологии означает, она не должна опираться на семантику проблемной области, предлагая унифицированный подход для решения типовых задач в любой проблемной области. Семантический аспект постановки задачи, осмысления процесса решения и анализа результатов лежит на конечном специалисте.

Анализ существующих методов обработки информации показал, что этим требованиям хорошо удовлетворяют нейроинформационные технологии, основанные на искусственных нейронных сетях [16-19]. В основе их функционирования лежат алгоритмы, моделирующие распространение сигналов по нейронам и синапсам нервной системы. Существует достаточно большой набор архитектур и метаалгоритмов функционирования нейронных сетей, при этом задачи, решаемые нейроинформатикой, в большинстве случаев требуют подгонки архитектуры и алгоритмов обучения нейросетей под определенный класс задач или даже конкретную задачу. Поэтому разработка теоретических и методологических основ и универсальной технологии создания ЭС, включающей оптимизацию архитектур и метаалгоритмов функционирования нейросетей при работе с информацией, и извлечение знаний из нейросетей является актуальной задачей.

Глава 2. Нейронные сети

2.1. Коннекционизм

Нейронные сети ‑ это сети, состоящие из связанных между собой простых элементов ‑ формальных нейронов. Нейроны моделируются довольно простыми автоматами, а вся сложность, гибкость функционирования и другие важнейшие качества определяются связями между нейронами. Каждая связь представляется как совсем простой элемент, служащий для передачи сигнала.

Научно-техническое направление, определяемое описанным представлением о нейронных сетях, называется коннекционизмом (по-ангийски connection – связь). С коннекционизмом тесно связан следующий блок идей:

1) однородность системы (элементы одинаковы и чрезвычайно просты, все определяется структурой связей);

2) надежные системы из ненадежных элементов и "аналоговый ренессанс" – использование простых аналоговых элементов;

3) "голографические" системы – при разрушении случайно выбранной части система сохраняет свои полезные свойства.

Существует большой класс задач: нейронные системы ассоциативной памяти, статистической обработки, фильтрации и др., для которых связи формируются по явным формулам. Но еще больше (по объему существующих приложений) задач требует неявного процесса. По аналогии с обучением животных или человека этот процесс также называют обучением.

Обучение обычно строится так: существует задачник – набор примеров с заданными ответами. Эти примеры предъявляются системе. Нейроны получают по входным связям сигналы – "условия примера", преобразуют их, несколько раз обмениваются преобразованными сигналами и, наконец, выдают ответ – также набор сигналов. Отклонение от правильного ответа штрафуется. Обучение состоит в минимизации штрафа как (неявной) функции связей.

Неявное обучение приводит к тому, что структура связей становится "непонятной" – не существует иного способа ее прочитать, кроме как запустить функционирование сети. Становится сложно ответить на вопрос: "Как нейронная сеть получает результат?" – то есть построить понятную человеку логическую конструкцию, воспроизводящую действия сети.

Это явление можно назвать "логической непрозрачностью" нейронных сетей, обученных по неявным правилам.

С другой стороны, при использовании нейронных сетей в экспертных системах возникает потребность прочитать и логически проинтерпретировать навыки, выработанные сетью. Для этого служат методы контрастирования – получения неявными методами логически прозрачных нейронных сетей.

2.2. Элементы нейронных сетей

Для описания алгоритмов и устройств в нейроинформатике выработана специальная "схемотехника", в которой элементарные устройства – сумматоры, синапсы, нейроны и т. п. объединяются в сети, предназначенные для решения задач.

Адаптивный сумматор вычисляет скалярное произведение вектора входного сигнала x на вектор параметров a. На схемах он обозначается так, как показано на рис. 1. Адаптивным он называется из-за наличия вектора настраиваемых параметров a. Для многих задач полезно иметь линейную неоднородную функцию выходных сигналов. Ее вычисление также можно представить с помощью адаптивного сумматора, имеющего n+1 вход и получающего на 0-й вход постоянный единичный сигнал (рис. 2).

--------------------------------------------------

Рисунок убран из работы и доступен только в оригинальном файле.

Рис. 2. Неоднородный адаптивный сумматор

|
--------------------------------------------------------- -------------------------------------------------- --------------------------------------------------

Рисунок убран из работы и доступен только в оригинальном файле.

Рис. 1. Адаптивный сумматор.

|
--------------------------------------------------------- -------------------------------------------------- --------------------------------------------------

Рисунок убран из работы и доступен только в оригинальном файле.

Рис. 5. Формальный нейрон

|
--------------------------------------------------------- -------------------------------------------------- --------------------------------------------------

Рисунок убран из работы и доступен только в оригинальном файле.

Рис. 3. Нелинейный преобразова-тель сигнала.

|
--------------------------------------------------------- -------------------------------------------------- --------------------------------------------------

Рисунок убран из работы и доступен только в оригинальном файле.

Рис. 4. Точка ветвления

|
--------------------------------------------------------- --------------------------------------------------

Нелинейный преобразователь сигнала изображен на рис. 3. Он получает скалярный входной сигнал x и переводит его в j(x).

Точка ветвления служит для рассылки одного сигнала по нескольким адресам (рис. 4). Она получает скалярный входной сигнал x и передает его всем своим выходам.

Стандартный формальный нейрон составлен из входного сумматора, нелинейного преобразователя и точки ветвления на выходе (рис. 5).

Линейная связь ‑ синапс ‑ отдельно от сумматоров не встречается, однако для некоторых рассуждений бывает удобно выделить этот элемент (рис. 6). Он умножает входной сигнал x на “вес синапса” a.

--------------------------------------------------

Рисунок убран из работы и доступен только в оригинальном файле.

Рис. 6. Синапс.

|
--------------------------------------------------------- --------------------------------------------------

Итак, дано описание основных элементов, из которых составляются нейронные сети.

2.3. Основные архитектуры нейронных сетей

Как можно составлять эти сети? Строго говоря, как угодно, лишь бы входы получали какие-нибудь сигналы. Используются несколько стандартных архитектур, из которых путем вырезания лишнего или (реже) добавления строятся большинство используемых сетей.

Здесь и далее рассматриваются только нейронные сети, синхронно функционирующие в дискретные моменты времени: все нейроны срабатывают “разом”.

В семействе нейронных сетей можно выделить две базовых архитектуры – слоистые и полносвязные сети.

--------------------------------------------------

Рисунок убран из работы и доступен только в оригинальном файле.

Рис. 7. Слоистая сеть

|
--------------------------------------------------------- --------------------------------------------------

Слоистые сети: нейроны расположены в несколько слоев (рис. 7). Нейроны первого слоя получают входные сигналы, преобразуют их и через точки ветвления передают нейронам второго слоя. Далее срабатывает второй слой и т. д. до k-го слоя, который выдает выходные сигналы для интерпретатора и пользователя. Если не оговорено противное, то каждый выходной сигнал i-го слоя подается на вход всех нейронов i+1-го. Число нейронов в каждом слое может быть любым и никак заранее не связано с количеством нейронов в других слоях. Стандартный способ подачи входных сигналов: все нейроны первого слоя получают каждый входной сигнал. Особое распространение получили трехслойные сети, в которых каждый слой имеет свое наименование: первый – входной, второй – скрытый, третий – выходной.

Полносвязные сети: каждый нейрон передает свой выходной сигнал остальным нейронам, включая самого себя. Выходными сигналами сети могут быть все или некоторые выходные сигналы нейронов после нескольких тактов функционирования сети. Все входные сигналы подаются всем нейронам.

Элементы слоистых и полносвязных сетей могут выбираться по-разному. Существует, впрочем, стандартный выбор – нейрон с адаптивным неоднородным линейным сумматором на входе (рис. 5).

Для полносвязной сети входной сумматор нейрона фактически распадается на два: первый вычисляет линейную функцию от входных сигналов сети, второй – линейную функцию от выходных сигналов других нейронов, полученных на предыдущем шаге.

Функция активации нейронов (характеристическая функция) j – нелинейный преобразователь, преобразующий выходной сигнал сумматора (см. рис. 5) – может быть одной и той же для всех нейронов сети. В этом случае сеть называют однородной (гомогенной). Если же j зависит еще от одного или нескольких параметров, значения которых меняются от нейрона к нейрону, то сеть называют неоднородной (гетерогенной).

Если полносвязная сеть функционирует до получения ответа заданное число тактов k, то ее можно представить как частный случай k-слойной сети, все слои которой одинаковы и каждый из них соответствует такту функционирования полносвязной сети.

2.4. Обучение нейронных сетей как минимизация функции ошибки

Построение обучения как оптимизации дает универсальный метод создания нейронных сетей для решения задач. Если сформулировать требования к нейронной сети, как задачу минимизации некоторой функции - оценки, зависящей от части сигналов (входных, выходных, ...) и от параметров сети, то обучение можно рассматривать как оптимизацию и строить соответствующие алгоритмы, программное обеспечение и, наконец, устройства. Функция оценки обычно довольно просто (явно) зависит от части сигналов - входных и выходных, но ее зависимость от настраиваемых параметров сети может быть сложнее и включать как явные компоненты (слагаемые, сомножители,...), так и неявные - через сигналы (сигналы, очевидно, зависят от параметров, а функция оценки - от сигналов).

За пределами задач, в которых нейронные сети формируются по явным правилам (сети Хопфилда, проективные сети, минимизация аналитически заданных функций и т. п.) требования к нейронной сети обычно можно представить в форме минимизации функции оценки. Не следует путать такую постановку задачи и ее весьма частный случай - "обучение с учителем".

Если для решения задачи не удается явным образом сформировать сеть, то проблему обучения можно, как правило, сформулировать как задачу минимизации оценки. Осторожность предыдущей фразы ("как правило") связана с тем, что на самом деле неизвестны и никогда не будут известны все возможные задачи для нейронных сетей, и, быть может, где-то в неизвестности есть задачи, которые несводимы к минимизации оценки.

Минимизация оценки - сложная проблема: параметров астрономически много (для стандартных примеров, реализуемых на РС - от 100 до 1000000), адаптивный рельеф (график оценки как функции от подстраиваемых параметров) сложен, может содержать много локальных минимумов, извилистых оврагов и т. п.

Наконец, даже для того, чтобы воспользоваться простейшими методами гладкой оптимизации, нужно вычислять градиент функции оценки. В данном разделе описывается связь двойственного функционирования сетей - автоматов с преобразованием Лежандра и неопределенными множителями Лагранжа.

Переменные обратного функционирования m появляются как вспомогательные при вычислении производных сложной функции. Переменные такого типа появляются не случайно. Они постоянно возникают в задачах оптимизации и являются множителями Лагранжа.

Для всех сетей автоматов, встречавшихся в предыдущих разделах, можно выделить три группы переменных:

внешние входные сигналы x...,

переменные функционирования - значения на выходах всех элементов сети f...,

переменные обучения a...(многоточиями заменяются различные наборы индексов).

Объединим их в две группы - вычисляемые величины y... - значения f... и задаваемые - b... (включая a... и x...). Упростим индексацию, перенумеровав f и b натуральными числами: f1,...,fN ; b1 ,...,bM.

Пусть функционирование системы задается набором из N уравнений

yi(y1 ,...,yN, b1 ,...,bM)=0 (i=1,...,N). (1)

Для послойного вычисления сложных функций вычисляемые переменные - это значения вершин для всех слоев, кроме нулевого, задаваемые переменные - это значения вершин первого слоя (константы и значения переменных), а уравнения функционирования имеют простейший вид (4), для которого

Рисунок убран из работы и доступен только в оригинальном файле.

Предполагается, что система уравнений (1) задает способ вычисления yi.

Пусть имеется функция (лагранжиан) H(y1 ,...,yN, b1 ,...,bM). Эта функция зависит от b и явно, и неявно - через переменные функционирования y. Если представить, что уравнения (1) разрешены относительно всех y (y=y(b)), то H можно представить как функцию от b:

H=H1(b)=H(y1(b),...,yN(b),b). (2)

где b - вектор с компонентами bi.

Для задачи обучения требуется найти производные Di=¶H1(b)/¶bi. Непосредственно и явно это сделать трудно.

Поступим по-другому. Введем новые переменные m1,...,mN (множители Лагранжа) и производящую функцию W:

Рисунок убран из работы и доступен только в оригинальном файле.

В функции W аргументы y, b и m - независимые переменные.

Уравнения (1) можно записать как

Рисунок убран из работы и доступен только в оригинальном файле. (3)

Заметим, что для тех y, b, которые удовлетворяют уравнениям (13), при любых m

W(y, b,m)ºH(y, b). (4)

Это означает, что для истинных значений переменных функционирования y при данных b функция W(y, b,m) совпадает с исследуемой функцией H.

Попытаемся подобрать такую зависимость mi(b), чтобы, используя (4), получить для Di=¶H1(b)/¶bi наиболее простые выражения. На многообразии решений (15)

Рисунок убран из работы и доступен только в оригинальном файле.

Поэтому

Рисунок убран из работы и доступен только в оригинальном файле. (5)

Всюду различается функция H(y, b), где y и b - независимые переменные, и функция только от переменных b H(y(b),b), где y(b) определены из уравнений (13). Аналогичное различение принимается для функций W(y, b,m) и W(y(b),b, m (b)).

Произвол в определении m(b) надо использовать наилучшим образом - все равно от него придется избавляться, доопределяя зависимости. Если выбрать такие m, что слагаемые в первой сумме последней строки выражения (5) обратятся в нуль, то формула для Di резко упростится. Положим поэтому

Рисунок убран из работы и доступен только в оригинальном файле.. (6)

Это - система уравнений для определения mk (k=1,...,N). Если m определены согласно (6), то

Рисунок убран из работы и доступен только в оригинальном файле.

Основную идею двойственного функционирования можно понять уже на простейшем примере. Рассмотрим вычисление производной сложной функции одного переменного. Пусть заданы функции одного переменного f1(A) ,f2(A) ,...,fn(A) . Образуем из них сложную функцию

F(x)=fn (fn-1 (...(f1 (x))...)). (1)

Можно представить вычисление F(x) как результат работы n автоматов, каждый из которых имеет один вход и выдает на выходе значение fi (A), где A - входной сигнал (рис.8, а). Чтобы построить систему автоматов, вычисляющую F¢(x), надо дополнить исходные автоматы такими, которые вычисляют функции fi¢(A), где A - входной сигнал (важно различать производную fi по входному сигналу, то есть по аргументу функции fi, и производную сложной функции fi(A(x)) по x; fi¢(A) ‑ производные по A).

Для вычисления F¢(x) потребуется еще цепочка из n-1 одинаковых автоматов, имеющих по два входа, по одному выходу и подающих на выход произведение входов. Тогда формулу производной сложной функции

Рисунок убран из работы и доступен только в оригинальном файле.
можно реализовать с помощью сети автоматов, изображенной на рис. 8, б. Сначала по этой схеме вычисления идут слева направо: на входы f1 и f1' подаются значения x, после вычислений f1(x) это число подается на входы f2 и f2' и т. д. В конце цепочки оказываются вычисленными все fi (fi-1 (...)) и fi'(fi-1 (...)).

--------------------------------------------------

Рисунок убран из работы и доступен только в оригинальном файле.

Рис.8. Схематическое представление вычисления сложной

функции одного переменного и ее производных.

|
--------------------------------------------------------- --------------------------------------------------

Можно представить вычисление любой сложной функции многих переменных, как движение по графу: в каждой его вершине производится вычисление простой функции (рис 9. а). Вычисление градиента представляется обратным движением (рис 9. б). Отсюда и термин: методы (алгоритмы) обратного распространения.

--------------------------------------------------

а)

Рисунок убран из работы и доступен только в оригинальном файле.

|

б)

Рисунок убран из работы и доступен только в оригинальном файле.

|
--------------------------------------------------------- -------------------------------------------------- --------------------------------------------------
Рис. 9. Прохождение вершины t в прямом (а) и обратном (б) направлении. |
--------------------------------------------------------- --------------------------------------------------

Предлагается рассматривать обучение нейронных сетей как задачу оптимизации. Это означает, что весь арсенал методов оптимизации может быть испытан для обучения.

Существует, однако, ряд специфических ограничений. Они связаны с огромной размерностью задачи обучения. Число параметров может достигать 108 - и даже более. Уже в простейших программных имитаторах на персональных компьютерах подбирается 103 - 104 параметров.

Из-за высокой размерности возникает два требования к алгоритму:

1. Ограничение по памяти. Пусть n - число параметров. Если алгоритм требует затрат памяти порядка n2 ,то он вряд ли применим для обучения. Вообще говоря, желательно иметь алгоритмы, которые требуют затрат памяти порядка Kn, K=const.

2. Возможность параллельного выполнения наиболее трудоемких этапов алгоритма и желательно - нейронной сетью.

Глава 3. Упрощение нейронной сети.

3.1. Что такое упрощение нейронной сети и зачем оно нужно

По обучающей выборке невозможно сказать, какая структура сети (число слоев, элементов сети) требуется для решения задачи. Также не существует конструктивного алгоритма определения значений адаптивных параметров сети исходя из обучающей выборки. Хотя и был предложен подход [17,20] к анализу достаточности структуры сети при помощи оценки константы Липшица функции, вычисляемой сетью, и выборочной оценки константы Липшица для обучающей выборки, но он не учитывает влияния и вида используемой при обучении целевой функции (функции оценки) и некоторых других аспектов.

Поэтому обычно задаются некоторой избыточной структурой сети и адаптивные параметры находят путем обучения сети, т. е. с привлечением методов оптимизации [16-20]. Это приводит к тому, что часто в нейронной сети присутствует некоторое число избыточных элементов, без которых можно вполне обойтись при решении задачи. Удаление таких элементов из нейросети называется упрощением сети.

Упрощение нейронной сети преследует следующие цели [16,17,20]:

-  Получение нейросети, наиболее просто реализуемой технически и обеспечивающей максимальное быстродействие при аппаратной реализации.

-  Улучшение интер - и экстраполяционных способностей нейросети.

-  Сокращение числа входных сигналов сети (при сохранении требуемой точности решения задачи) для удешевления и ускорения процесса сбора информации, на основе которой нейросеть принимает решение.

-  Обеспечение (или облегчение) явной вербальной интерпретации процесса и результатов обработки данных.

В настоящей работе и в Главе 3 основное внимание уделяется последней задаче, задача минимизации числа входных сигналов решается как побочная.

Нужно отметить, что после проведения упрощения теряется такое свойство сети, как отказоустойчивость к повреждениям элементов. Поэтому для получения отказоустойчивых нейросетей разработаны специальные модификации алгоритмов обучения и упрощения, например, [21].

3.2. Задача извлечения знаний из нейронной сети

Обучаясь, нейросеть формирует некоторый навык решения неформализованной задачи классификации или предсказания. Этот навык можно оценить при помощи тестовой выборки – если точность решения тестовых задач достаточна с точки зрения пользователя, то полученная нейросеть может в дальнейшем использоваться в составе нейросетевой экспертной системы для решения задачи [17].

Однако нейросеть сформировала скрытое, неявное знание об алгоритме решения задачи. Это знание заложено в сеть в виде значений весов ее адаптивных параметров. В нейросети могут присутствовать и избыточные элементы (см. Параграф 2.2.6), поэтому пользователю сложно или практически невозможно осмыслить и преобразовать в явную форму нейросетевое правило принятия решения путем анализа структуры сети и ее адаптивных параметров.

Поэтому появилась задача извлечения знаний из нейронной сети, процесс решения которой схематически можно представить так [22,23]:

вырезание "всего лишнего"

нейросеть логически прозрачная нейросеть

данные неявные знания явные знания

Т. е. нейросеть в ходе обучения формирует неявные знания, в ходе упрощения сети достигается некоторая безизбыточная (логически прозрачная) структура сети, удовлетворяющая некоторым заданным требованиям, и по полученной безизбыточной сети возможно записать правила принятия решения в явном виде. Этот процесс будет изучаться и детализироваться далее в Главах 3, 4.

Результатом процесса извлечения знаний должен являться набор правил, который с заданной точностью решает заданное число примеров обучающей выборки (эти требования к точности заложены в использовавшихся при обучении сети целевой функции и алгоритме обучения, который может позволять прекращать обучение при достижении правильного решения заданного числа примеров). Все другие манипуляции с нейросетью (упрощение сети, извлечение из сети набора явных правил вывода и запись их в требуемом виде) не дожны снижать требуемую точность. Качество извлеченных знаний проверяется путем решения задач тестовой выборки, так как процесс упрощения сети и извлечения знаний может снизить точность решения тестовых задач по сравнению с точностью исходной сети после ее обучения.

3.3. Методы упрощения нейронных сетей

К настоящему моменту разработано большое число методов упрощения нейронных сетей. Можно ввести несколько классификаций этих методов, например, разделить на 2 группы на основе информации, используемой методом для определения незначимых элементов и сигналов нейросети [24,25]:

1.  Методы, использующие только информацию о значениях весов синапсов и, при необходимости, внутренние сигналы сети на обучающей выборке.

2.  Методы, использующие информацию об изменении значения целевой функции либо оценку такого изменения на основе первых или вторых производных целевой функции по значению упрощаемого элемента.

Другая классификация делит методы на 3 класса по стратегии упрощения:

1.  Методы, выполняющие цикл "элементарное упрощение – дообучение нейросети" до тех пор, пока дообучение приводит к решению задачи с требуемой точностью.

2.  Методы, добавляющие к целевой функции дополнительное штрафное слагаемое (штрафующее за структурную сложность нейросети) и оптимизирующие при обучении полученный композиционный критерий. После завершения обучения проводится исключение выявленных избыточных элементов. Дообучения сети после этого не требуется.

3.  Методы, упрощающие уже обученную сеть и не требующие дообучения. Они используют идею о как можно меньшем изменении поведения системы – например, чтобы выходной сигнал нейрона или нейросети после проведения упрощения как можно меньше отличался от сигнала до упрощения [17].

Можно вводить и другие классификации.

Далее, при рассмотрении методов, в отдельных случаях будет использоваться вторая классификация.

Избыточным, незначимым элементом или сигналом нейросети является элемент или сигнал, который может быть удален из сети при сохранении требуемой точности решения задачи.

Такое удаление элемента будем называть контрастированием [16,17,20,26].

Другая возможная модификация элемента – модификация его параметров. Для синапса имеется операция бинаризации – приведение веса синапса к значению из зафиксированного набора выделенных значений [17,20,26].

Для нелинейного преобразователя нейрона возможна замена его нелинейной функции на иную.

Рассмотрим существующие методы упрощения.

3.3.1. Контрастирование синапсов нейросети

Рассматриваемые в параграфе методы применимы как к синапсам, так и к неоднородным входам нейронов – содержательных отличий синапса от неоднородного входа нет.

Один из наиболее широко используемых методов сокращения числа синапсов нейросети – добавление штрафного слагаемого в целевую функцию – т. н. "структурное обучение" [30-33]. Это слагаемое штрафует за большой (по абсолютному значению) вес синапса. Новая целевая функция имеет, например, вид Рисунок убран из работы и доступен только в оригинальном файле.. В качестве первого слагаемого взят критерий наименьших квадратов (Рисунок убран из работы и доступен только в оригинальном файле. – требуемый, Рисунок убран из работы и доступен только в оригинальном файле.– текущий выходной сигнал сети на i-м примере обучающей выборки). Для упрощения нейросети с несколькими выходными сигналами в первом слагаемом для каждого примера суммируются невязки всех выходных сигналов сети [28,29]. Штраф за веса синапсов wjk (второе слагаемое) входит с регуляризующим весом e, от величины которого зависит баланс между точностью решения задачи и простотой структуры сети.

После завершения обучения проводится удаление синапсов, модуль веса которых близок к нулю (не превосходит некоторой малой величины d), т. е. контрастирование выполняется, фактически, одновременно с обучением. К сожалению, этот подход не позволяет заранее задавать число удаляемых из сети элементов и требует экспериментов для определения оптимальной величины веса e.

Для

Здесь опубликована для ознакомления часть дипломной работы "Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике". Эта работа найдена в открытых источниках Интернет. А это значит, что если попытаться её защитить, то она 100% не пройдёт проверку российских ВУЗов на плагиат и её не примет ваш руководитель дипломной работы!
Если у вас нет возможности самостоятельно написать дипломную - закажите её написание опытному автору»


Просмотров: 598

Другие дипломные работы по специальности "Информатика":

Web-сайт для учителей информатики: анализ существующих и разработка нового приложения

Смотреть работу >>

Поиск фотооборудования

Смотреть работу >>

Автоматизированная система складского учета в ЗАО "Белгородский бройлер"

Смотреть работу >>

Автоматизированная система учета договоров страхования предпринимательских рисков

Смотреть работу >>

Создание информационно-справочной системы "Методический кабинет"

Смотреть работу >>