Обучение, основанное на вычислении градиента, в приложении к распознаванию документов (Ян ЛеКун)

Обучение на основе вычисления градиента (Gradient-Based Learning)
Проблема минимизации функции от множества переменных - лежит в основе многих задач информатики. Обучение, основанное на вычислении градиента, использует тот факт, что намного проще минимизировать непрерывную функцию, нежели дискретную (комбинаторную). Функция потерь может быть минимизирована путем оценки влияния малых отклонений параметров на функцию потерь. Это измеряется градиентом функции потерь по отношению к параметрам. Можно разработать алгоритм обучения, когда градиент может быть вычислен аналитически (а не численно). Это основа многих обучающих алгоритмов с непрерывными параметрами. В процедурах, которые описаны в этой статье, набор параметров W - это вектор из действительных чисел (параметров), по отношению к которому E(W) - непрерывна и дифференцируема почти везде.

Comments

Popular Posts