Обучение, основанное на вычислении градиента, в приложении к распознаванию документов (Ян ЛеКун)

January 26, 2010

Обучение, основанное на вычислении градиента, в приложении к распознаванию документов (Ян ЛеКун)

Самая простая процедура оптимизации заключается в том, что набор параметров W вычисляется с помощью метода градиентного спуска.

W_k = W_(k-1) - epsilon * (dE(W)/dW)

В простейшем случае epsilon - скалярная константа. Процедуры посложнее используют переменную epsilon, или подменяют её диагональной матрицей, или подменяют её оценочной матрицей Гессе, подобно тому, как это делается в методах или квази-методах Ньютона. Метод сопряженных градиентов также может быть использован. Тем не менее, Приложение B показывает, что, несмотря на множественные заявления, практическая польза от этих методов в приложении к большим обучающим машинам очень ограничена.

Популярной процедурой оптимизации является стохастический градиентный алгоритм, также называемый "постоянным обновлением".

Search This Blog

Serega's Blog

Обучение, основанное на вычислении градиента, в приложении к распознаванию документов (Ян ЛеКун)

Comments

Popular Posts

Вопросы по C++ и ответы на них

Поездка в Тулу