Обучение, основанное на вычислении градиента, в приложении к распознаванию документов (Ян ЛеКун)
Самая простая процедура оптимизации заключается в том, что набор параметров W вычисляется с помощью метода градиентного спуска.
W_k = W_(k-1) - epsilon * (dE(W)/dW)
В простейшем случае epsilon - скалярная константа. Процедуры посложнее используют переменную epsilon, или подменяют её диагональной матрицей, или подменяют её оценочной матрицей Гессе, подобно тому, как это делается в методах или квази-методах Ньютона. Метод сопряженных градиентов также может быть использован. Тем не менее, Приложение B показывает, что, несмотря на множественные заявления, практическая польза от этих методов в приложении к большим обучающим машинам очень ограничена.
Популярной процедурой оптимизации является стохастический градиентный алгоритм, также называемый "постоянным обновлением".
W_k = W_(k-1) - epsilon * (dE(W)/dW)
В простейшем случае epsilon - скалярная константа. Процедуры посложнее используют переменную epsilon, или подменяют её диагональной матрицей, или подменяют её оценочной матрицей Гессе, подобно тому, как это делается в методах или квази-методах Ньютона. Метод сопряженных градиентов также может быть использован. Тем не менее, Приложение B показывает, что, несмотря на множественные заявления, практическая польза от этих методов в приложении к большим обучающим машинам очень ограничена.
Популярной процедурой оптимизации является стохастический градиентный алгоритм, также называемый "постоянным обновлением".
Comments