Обучение, основанное на вычислении градиента, в приложении к распознаванию документов (Ян ЛеКун)
План статьи:
1, 2. Задача распознавания рукописных символов.
3. Сравнение различных систем распознавания.
4. Сеть трансформаций графа.
5. Классический метод эвристической чрезмерной сегментации для распознавания образов или рукописных символов.
6. Исключающие и неисключающие методы.
7. Многообещающий метод сетей для перестановки пустот. Метод устраняет необходимость в эвристике сегментации с помощью перемещения распознавателя по всем положениям на входе.
8. Сеть трансформаций графа определяется как многочисленные общие трансформации, основанные на алгоритме слияния графов. Также рассматривается связь со скрытыми моделями Маркова, обычно используемыми в системах распознавания речи.
9. Системараспознавания письма. Используются слова, а не отдельные символы.
10. Полная система на основе сетей трасформаций графа для распознавания напечатанных машиной банковских чеков LeNet5.
Обучение на данных
Существуют различные методы обучения, но самым популярным подходом, который продвигает сообщество "нейронных сетей" - это "численное" или, основанное на вычислении градиента обучение. Обучающая машина вычисляет функцию
Y_i = F(Z_i, W)
, где Z_i - i-й входной символ, W - набор подстроечных параметров. Выход Y_p - "рейтинг" или вероятность, что образ Z_p принадлежит к заданному классу символов (например, обозначающих букву "A"). Функция потерь:
E_p = D(D_p, F(W,Z_p))
измеряет различие между D_p и корректным или желательным результатом распознавания образа Z_p и результатом работы системы. Средняя функция потерь E_train(W) - это средняя ошибка по множеству {(Z_1,D_1), ..., (Z_p, D_p)}.
Проще говоря, обучение заключается в нахождении подстроечных параметров W, которые минимизируют E_train(W). Быстродействие системы на тренировочном наборе не представляет интереса. Более важная величина - ошибка на практике. Такая производительность оценивается путем измерения точности на специальном наборе шаблонов, взятых из тренировочного набора. Большинство работ по данной теме показали, что различие между коэффициентом ошибок на тестовом и тренировочном наборах зависит от количества тренировочных шаблонов следующим образом:
E_test - E_train = k (h / P)^alpha
, где P - количество тренировочных шаблонов, h - мера "эффективной емкости" или сложности машины, alpha - число между 0.5 и 1.0, k - константа. Таким образом это различие уменьшается с увеличением набора тренировочных шаблонов. По мере того, как увеличивается емкость h, E_train уменьшается. Но тогда увеличивается разница E_test - E_train. Большинство алгоритмов стремятся уменьшить E_train и эту разницу. Формально это называется минимизацией структурных рисков и этот процесс основывается на определении последовательности обучающих машин с увеличивающейся емкостью. Соответственно этому увеличивается пространство параметров, каждое последующее из которых включает в себя предыдущее. На практике Минимизация Структурных Рисков реализуется с помощью минимизации E_train + beta * H(W), H(W) - функция регуляризации, beta - константа. H(W) - выбирается таким, чтобы принимать большие значения на тех параметрах W, которые принадлежат к подмножествам пространства параметров с большой емкостью. Минимизация H(W) в результате ограничивает размер подмножеств параметров, таким образом, достигая компромисса между минимизацией тренировочной ошибки и минимизацией разницы E_test - E_train.
1, 2. Задача распознавания рукописных символов.
3. Сравнение различных систем распознавания.
4. Сеть трансформаций графа.
5. Классический метод эвристической чрезмерной сегментации для распознавания образов или рукописных символов.
6. Исключающие и неисключающие методы.
7. Многообещающий метод сетей для перестановки пустот. Метод устраняет необходимость в эвристике сегментации с помощью перемещения распознавателя по всем положениям на входе.
8. Сеть трансформаций графа определяется как многочисленные общие трансформации, основанные на алгоритме слияния графов. Также рассматривается связь со скрытыми моделями Маркова, обычно используемыми в системах распознавания речи.
9. Системараспознавания письма. Используются слова, а не отдельные символы.
10. Полная система на основе сетей трасформаций графа для распознавания напечатанных машиной банковских чеков LeNet5.
Обучение на данных
Существуют различные методы обучения, но самым популярным подходом, который продвигает сообщество "нейронных сетей" - это "численное" или, основанное на вычислении градиента обучение. Обучающая машина вычисляет функцию
Y_i = F(Z_i, W)
, где Z_i - i-й входной символ, W - набор подстроечных параметров. Выход Y_p - "рейтинг" или вероятность, что образ Z_p принадлежит к заданному классу символов (например, обозначающих букву "A"). Функция потерь:
E_p = D(D_p, F(W,Z_p))
измеряет различие между D_p и корректным или желательным результатом распознавания образа Z_p и результатом работы системы. Средняя функция потерь E_train(W) - это средняя ошибка по множеству {(Z_1,D_1), ..., (Z_p, D_p)}.
Проще говоря, обучение заключается в нахождении подстроечных параметров W, которые минимизируют E_train(W). Быстродействие системы на тренировочном наборе не представляет интереса. Более важная величина - ошибка на практике. Такая производительность оценивается путем измерения точности на специальном наборе шаблонов, взятых из тренировочного набора. Большинство работ по данной теме показали, что различие между коэффициентом ошибок на тестовом и тренировочном наборах зависит от количества тренировочных шаблонов следующим образом:
E_test - E_train = k (h / P)^alpha
, где P - количество тренировочных шаблонов, h - мера "эффективной емкости" или сложности машины, alpha - число между 0.5 и 1.0, k - константа. Таким образом это различие уменьшается с увеличением набора тренировочных шаблонов. По мере того, как увеличивается емкость h, E_train уменьшается. Но тогда увеличивается разница E_test - E_train. Большинство алгоритмов стремятся уменьшить E_train и эту разницу. Формально это называется минимизацией структурных рисков и этот процесс основывается на определении последовательности обучающих машин с увеличивающейся емкостью. Соответственно этому увеличивается пространство параметров, каждое последующее из которых включает в себя предыдущее. На практике Минимизация Структурных Рисков реализуется с помощью минимизации E_train + beta * H(W), H(W) - функция регуляризации, beta - константа. H(W) - выбирается таким, чтобы принимать большие значения на тех параметрах W, которые принадлежат к подмножествам пространства параметров с большой емкостью. Минимизация H(W) в результате ограничивает размер подмножеств параметров, таким образом, достигая компромисса между минимизацией тренировочной ошибки и минимизацией разницы E_test - E_train.
Comments