Knigi-for.me

Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун

Тут можно читать бесплатно Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун. Жанр: Зарубежная образовательная литература издательство , год . Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте knigi-for.me (knigi for me) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Ознакомительная версия. Доступно 16 из 82 стр. его руководитель Ларри Джекел меня не забыли. Год спустя они пригласили меня прочитать лекцию в их лаборатории. Еще двумя годами позже я появился на собеседовании, а через три года я стал членом их команды!

В Лез-Уш я встретил и Терри Сейновски, соавтора статьи Джеффри Хинтона о машинах Больцмана. Он появился там уже после моего выступления, но я поймал его во второй половине дня и объяснил свою работу над многоуровневыми сетями. Я подозревал, что ему будет это интересно. Он терпеливо слушал, но ничего не сказал о том, что он и Джеффри Хинтон уже работают над обратным распространением. Джеффри удалось заставить этот алгоритм работать, но еще не все об этом знали – и я тоже.

Самые прекрасные идеи заразительны. Принцип обратного распространения Джеффри позаимствовал у Дэйва Рамелхарта из Калифорнийского университета в Сан-Диего, у которого он несколькими годами ранее проходил стажировку после защиты диссертации. К 1982 г. Дэйв смог разработать и запрограммировать этот метод, но не смог заставить его работать. Он пришел к Джеффри, который ответил: «Он не будет работать из-за проблемы локальных минимумов»[21].

В итоге Дэйв сдался. Но во время работы над машиной Больцмана Джеффри понял, что работать с локальными минимумами не так сложно, как он думал. Поэтому он реализовал метод Дэйва Рамельхарта на языке Lisp на своей Lisp-машине от компании Symbolics. И метод заработал!

Итак, во время нашего обсуждения в Лез-Уш Терри понял, что мой алгоритм HLM очень похож на обратное распространение. Он сам уже работал над применением метода обратного распространения ошибки, который через несколько месяцев стал весьма популярным. Мне он об этом не сказал. Но вернувшись в США, он признался Джеффри: «Во Франции есть ребенок, который работает над тем же, что и мы!»

Весной того же года я написал первую самостоятельную статью (признаться, несколько выпадавшую из канонов научной литературы) о своей разработке. Мне удалось обнародовать ее на конгрессе по когнитивным исследованиям в июне 1985 г., первом конгрессе во Франции, объединяющем ИИ, нейронные сети, когнитивные науки и нейробиологию. Джеффри Хинтон был главным спикером. Он прочитал вводную лекцию, в которой рассказал о машинах Больцмана. В конце концов, вокруг него собралась группа из 50 человек. Я хотел подойти к нему, но не было возможности. И тут я увидел, как он поворачивается к Дэниэлу Хэндлеру, одному из организаторов конференции, и услышал, как он спросил: «Вы знаете кого-нибудь по имени Ян Лекун?» Дэниэл оглянулся вокруг. Я закричал: «Я здесь!» Дело было в том, что Джеффри увидел мою статью и попытался ее перевести, хотя французским владел слабо. Тем не менее, он сумел понять, что я – именно тот «ребенок», о котором сказал ему Терри.

Мы с Джеффри встретились на следующий день за обедом. Он объяснил мне принцип обратного распространения. Хотя он знал, что я и так его понимаю! Он сказал мне, что пишет статью и процитирует в ней мою. Я чуть не впал в прострацию. Мы быстро поняли, что наши интересы, наши подходы, наше мышление схожи. Джеффри пригласил меня в летнюю школу коннекционистских моделей в Карнеги-Меллон в следующем году, и я, конечно же, согласился. (Исследователи когнитивных наук предпочитали для обозначения нейронных сетей использовать термин «коннекционистские модели».)

Использование обратного распространения градиента[22]

Изобретения не возникают из ничего. Они являются результатом проб, ошибок, разочарований и дискуссий, и зачастую для их реализации требуется много времени. Таким образом, «рубежи» искусственного интеллекта расширялись благодаря целой серии открытий. Популяризация градиентного обратного распространения в 1980-х гг. позволила обучать многослойные нейронные сети, состоящие из тысяч нейронов, организованных по слоям, с сотнями тысяч соединений. Каждый слой нейронов объединяет, обрабатывает и преобразует информацию из предыдущего слоя и передает результат следующему слою, пока в конечном слое не сформируется ответ. Такая многоуровневая архитектура обеспечивает потрясающую пропускную способность[23] этих многоуровневых сетей. Позже мы поговорим о глубоком обучении.

Но в 1985 г. идея, что для многоуровневой сети может появиться процедура обучения, все еще с трудом воспринималась. Физиков интересовала аналогия между полносвязными нейронными сетями («сетями Хопфилда») и спиновыми стеклами. Они видели в них модель ассоциативной памяти в мозге. «Мадленка» Пруста[24] по форме, запаху и вкусу относится к образам и связанным с ними чувствам, то есть к воспоминаниям. Многоуровневые сети работают скорее в режиме восприятия: с помощью каких механизмов можно идентифицировать мадлен только по его форме? Физики не сразу это поняли.

Все изменилось в 1986 г. Терри Сейновски опубликовал технический отчет о NetTalk, многоуровневой сети, основанной на обратном распространении информации, которая «училась» читать вслух. Система транскрибирует английский текст в последовательность фонем (элементарных речевых звуков), передаваемых на синтезатор речи. Легко преобразовать текст в речь на французском языке, но чрезвычайно сложно на английском. В начале обучения система заикалась, как ребенок, который учится говорить, однако со временем ее произношение улучшилось. Терри Сейновски приехал прочитать лекцию в Высшей школе перед обомлевшей аудиторией. Внезапно все захотели со мной пообщаться. Многослойные сети вдруг стали интересными, и я был знатоком в этой области!

Годом раньше я обнаружил, что обратное распространение может быть сформулировано математически с помощью Лагранжева формализма (названного в честь франко-итальянского математика XVIII в. и астронома Жозефа-Луи Лагранжа). Это вид формализма, на котором базировалась классическая механика, квантовая механика и теория «оптимального управления». Я понимал, что метод, аналогичный алгоритму обратного распространения ошибки, уже был предложен теоретиками оптимального управления в начале 1960-х гг. Он известен как алгоритм Келли-Брайсона или «метод помощника», подробно описанный в справочнике Артура Брайсона и Ю-Чи Хо «Applied Optimal Control, Arthur E. Bryson, Yu-Chi Ho, 1975», опубликованном в 1969 г.

Эти исследователи были далеки от идеи об использовании данного метода для машинного обучения или нейронных сетей. Их интересовали планирование и системы управления. Например, как управлять траекторией ракеты, чтобы она попала на точную орбиту и успешно встретилась с другим космическим кораблем, израсходовав при этом как можно меньше топлива. Однако с математической точки зрения эта проблема очень похожа на вопрос о настройке синаптических весов многослойной нейронной сети, чтобы результат последнего слоя стал желаемым.

Позже я узнал, что несколько исследователей очень близко подошли к открытию обратного распространения ошибки. В 1960-х и 1970-х гг. некоторые из них открыли «автоматическое дифференцирование в обратном режиме» – основной блок для расчета градиентов при обратном распространении. Но они использовали его для облегчения численного решения дифференциальных уравнений или оптимизации функций. Об обучении в многослойных сетях тогда никто и не думал. Никто – кроме, возможно, Пола Вербоса, студента

Ознакомительная версия. Доступно 16 из 82 стр.

Ян Лекун читать все книги автора по порядку

Ян Лекун - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки kniga-for.me.

Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту knigi.for.me@yandex.ru или заполнить форму обратной связи.