Опубликован: 25.12.2006 | Доступ: свободный | Студентов: 1881 / 400 | Оценка: 4.43 / 4.13 | Длительность: 15:29:00
Специальности: Программист, Экономист
Лекция 3:

Обучение с учителем: Распознавание образов

Основы индуктивного метода

Прежде чем ответить на этот вопрос, следует задать критерий оптимальности. Поскольку нейросети осуществляют статистическую обработку данных, нам следует обратиться к основам математической статистики - индуктивному методу.

Байесовский подход

Основная проблема статистики - обобщение эмпирических данных. В формализованном виде задача состоит в выборе наилучшей модели (гипотезы, объясняющей наблюдаемые данные) из некоторого доступного множества. Для решения этой задачи надо уметь оценивать степень достоверности той или иной гипотезы. Математическая формулировка этого подхода содержится в знаменитой теореме Байеса.

Обозначим весь набор имеющихся данных D, а гипотезы, объясняющие эти данные (в нашем случае - нейросети), как N. Предполагается, что каждая такая гипотеза объясняет данные с большей или меньшей степенью вероятности P(D|N). Теорема Байеса дает решение обратной задачи - определить степень достоверности гипотез P(N|D), исходя из их успехов в объяснении данных. Согласно этой теореме, достоверность гипотезы пропорциональна ее успеху, а также ее априорной вероятности, P(N), известной из других соображений, не относящихся к данной серии наблюдений:

P(N|D)=\frac{P(D|N)P(N)}{\sum_N P(D|N)P(N)}
В этом современном виде теорема Байеса была на самом деле сформулирована Лапласом. Томасу Байесу принадлежит сама постановка задачи. Он сформулировал ее как обратную известной задаче Бернулли. Если Бернулли искал вероятность различных исходов бросания "кривой" монеты, то Байес, наоборот, стремился определить степень этой "кривизны" по эмпирически наблюдаемым исходам бросания монеты. В его решении отсутствовала априорная вероятность.

Наилучшая модель определяется максимизацией P(N|D) или ее логарифма, что дает один и тот же результат в силу монотонности логарифмической функции. Логарифмы удобны тем, что произведение вероятностей независимых событий они переводят в сумму их логарифмов:

\label{math/1} \max_N \log P(N|D)\Rightarrow \max_N\{log P(D|N)+\log P(N)\} ( 1)
(Знаменатель не зависит от модели и не влияет на выбор лучшей.)

Выписанная выше формула является базовой для понимания основ обучения нейросетей, т.к. она задает критерий оптимальности обучения, к которому надо стремиться. Мы еще неоднократно вернемся к ней на протяжении этой лекции. Обсудим, прежде всего значение обоих членов в правой части полученного выражения.

Принцип максимального правдоподобия (maximum likelihood)

Заметим, прежде всего, что второй член в правой части выражения не зависит от данных. Первый же, отражающий эмпирический опыт, как правило, имеет вид колокола тем более узкого, чем больше объем имеющихся в распоряжении данных (см. рисунок 3.4).

Качественная зависимость априорной и эмпирической составляющих формулы Байеса. Чем больше данных -  тем точнее можно выбрать проверяемую гипотезу

Рис. 3.4. Качественная зависимость априорной и эмпирической составляющих формулы Байеса. Чем больше данных - тем точнее можно выбрать проверяемую гипотезу

Действительно, чем больше данных - тем точнее могут быть проверены следствия конкурирующих гипотез, и, следовательно, тем точнее будет выбор наилучшей.

Следовательно, при стремлении количества данных к бесконечности, последним членом можно пренебречь. Это приближение:

\max_N \log P(N|D)\Rightarrow \min_N\{-log P(D|N)\}
получило название принципа максимального правдоподобия (Фишер) и характерно для т.н. параметрической статистики, в которой модель представляет собой семейство решений с небольшим и фиксированным набором параметров.

Отрицательный логарифм вероятности имеет смысл эмпирической ошибки при подгонке данных с помощью имеющихся в модели свободных параметров.

Например, в задаче аппроксимации функций обычно предполагается, что данные порождаются некоторой неизвестной функцией, которую и надо восстановить, но их "истинные" значения искажены случайным гауссовым шумом. Таким образом, условная вероятность набора данных \{x^\alpha, y^\alpha\} для модели \{y(x^\alpha, w)\}, зависящей от настраиваемых параметров w, имеет гауссово распределение:

P(D|N)=\prod_\alpha{P(y^\alpha|N)},
P(y^\alpha|N)\infty exp[-(y^\alpha-y(y^\alpha|N))^2/2\sigma^2].

Отрицательный логарифм, таким образом, пропорционален сумме квадратов, и аппроксимация функции сводится к минимизации среднеквадратичной ошибки:

\min\{-ln{P(D|N)}\}\Rightarrow min \{\sum_\alpha(y^\alpha-y(x^\alpha,N))^2\}

Принцип минимальной длины описания (minimum description length)

В случае нейросетевого моделирования число параметров, как правило, велико, более того, размер сети, как правило, соотносится с объемом обучающей выборки, т.е. число параметров зависит от числа данных. В принципе, как отмечалось ранее, взяв достаточно большую нейросеть, можно приблизить имеющиеся данные со сколь угодно большой точностью. Между тем, зачастую это не то, что нам надо. Например, правильная аппроксимация зашумленной функции по определению должна давать ошибку - порядка дисперсии шума.

Учет второго члена формулы (1) позволяет наложить необходимые ограничения на сложность модели, подавляя, например, излишнее количество настроечных параметров. Смысл совместной оптимизации эмпирической ошибки и сложности модели дает принцип минимальной длины описания.

Согласно этому принципу следует минимизировать общую длину описания данных с помощью модели и описания самой модели. Чтобы увидеть это перепишем формулу (1) в виде:

\min_N\{-log{P(D|N)-log{P(N)}}\}=\min_N\{\text{описание ошибки+описание модели}\}

Первый член, как мы убедились, есть эмпирическая ошибка. Чем она меньше - тем меньше бит потребуется для исправления предсказаний модели. Если модель предсказывает все данные точно, длина описания ошибки равна нулю. Второй член имеет смысл количества информации, необходимого для выбора конкретной модели из множества с априорным распределением вероятностей P(N).

Очень сильный результат теории индуктивного вывода, принадлежащий Рисанену, ограничивает ожидаемую ошибку модели на новых данных степенью сжатия информации с помощью этой модели. Чем меньше описанная выше суммарная длина описания, тем надежнее предсказания такой модели.

Этот вывод пригодится нам позднее - для выбора оптимального размера нейросетей. Пока же предположим, что цель обучения сформулирована - имеется подлежащий минимизации функционал ошибки E(w)=E\{x^\alpha,y^\alpha,y(x^\alpha,w)\}, зависящий от всех настроечных весов нейросети. Наша ближайшая задача - понять каким образом можно найти значения этих весов, минимизируещих такой функционал.