Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун
Но постепенно, благодаря программе CIFAR, круг наших единомышленников расширился. С 2006 г. он достиг критического размера, в связи с чем наши статьи, представленные на конференциях, стали читать многие эксперты, объединенные тематикой этих исследований. О наших идеях заговорили, а нас самих стали узнавать.
В 2007 г. на конференции NIPS к нам в очередной раз отнеслись пренебрежительно, а между тем в 2018 г. там собрались 9000 участников. Джеффри Хинтон, Йошуа Бенджио и я посещали эту конференцию каждый год, потому что именно там происходят самые интересные обмены идеями о машинном обучении. Неделя встреч, три дня пленарных заседаний и два дня семинаров, где все могли свободно высказывать свои мнения.
Конференция и семинары проходили в то время на зимнем спортивном курорте недалеко от Ванкувера. Участники приехали туда в четверг днем на автобусе. Мы хотели провести там семинар по глубокому обучению, но организаторы без объяснения причин отказали нам. Ну и ладно! На деньги CIFAR мы организовали нашу «пиратскую» встречу и арендовали собственные автобусы для перевозки участников. Наш семинар посетили 300 участников, это был настоящий рекорд! Наш мастер-класс стал самым популярным мероприятием NIPS в том году! Эта история способствовала принятию термина «глубокое обучение» в специальной литературе.
Эффективность сверточных сетей подтвердилась
С методологической точки зрения, некоторые читатели, незнакомые с глубоким обучением, могут перейти к прочтению следующих глав, прежде чем продолжить эту, так как здесь мы ссылаемся на основные понятия, которые будут подробно разобраны позже.
В период с 2003 по 2013 г. моя лаборатория в Нью-Йоркском университете расширила область применения сверточных сетей. В 2003 г. мы добились распознавания простых объектов независимо от ориентации и освещения, а также распознавания лиц (см. рисунки 2.7 и 2.8)[34]. Впрочем, первую свою систему распознавания лиц я создал еще в 1991 г. во время шестимесячного нахождения в центральной лаборатории Thomson-CSF в Палезо. Эта работа была опубликована в 1993 г., но была проигнорирована сообществом.

Рис. 2.7. Распознание лиц с помощью сверточной сети
Изображение слева является результатом применения первой сверточной сети для распознания объектов на изображениях, созданных в 1991–1992 гг. Статьи об этом впервые вышли в 1993 и 1994 гг. Справа: высокопроизводительная система, разработанная в NEC в 2003–2004 гг. Такая система могла распознать необычные лица, например, пришельцев из «Звездного пути», а также оценивать выражение лица.
В 2003–2004 гг. лаборатория добилась значительного успеха с новым проектом, названным DAVE (рис. 2.9). Мы создали маленький грузовик-робот, оснащенный двумя камерами, который самостоятельно передвигался на местности. Конечно, сначала нужно было его обучить. Человек-пилот управлял им в течение часа или двух в разных локациях: в парках, садах, лесах. Система записывала как изображения двух камер, так и положение рулевого колеса. Затем сверточная сеть обучалась предсказывать угол поворота рулевого колеса на основе входных изображений, чтобы робот вел себя как человек-пилот, который поворачивает рулевое колесо, чтобы объехать возникшее препятствие. После этапа обучения, который длится несколько дней на компьютере, система смогла управлять роботом.
Эта демонстрация силы имитационного обучения, впрочем, не сумела удивить исследовательское сообщество. Статья оставалась не принятой к публикации до 2006 г. С другой стороны, она заинтересовала представителей Управления перспективных исследовательских проектов Министерства обороны США (Defense Advanced Research Projects Agency, DARPA) и побудила их начать проект LAGR (Learning Applied to Ground Vehicles, т. е. прикладное обучение наземных роботов), обширную исследовательскую программу по применению машинного обучения к пилотированию мобильных роботов, которая длилась с 2005 по 2009 г. Мы вернемся к этой теме в Главе 6. Результаты этой работы послужили источником вдохновения для ряда проектов по созданию беспилотных автомобилей.

Рис. 2.8. Распознавание объектов независимо от положения и ориентации
Сверточная сеть обучается на изображениях игрушек, относящихся к пяти категориям: человек, животное, самолет, легковой автомобиль и грузовик. Но оказалось, что она может распознавать реальные объекты на естественных изображениях, которые отличаются от игрушек.

Рис. 2.9. Робот DAVE (2003)
Эта небольшая радиоуправляемая машина оснащена двумя камерами. Сверточная сеть (справа), обученная имитировать действия человека-пилота, позволяет ему управлять своим движением автономно, избегая препятствий. Вход в сеть состоит из изображений с двух камер (вверху). Выходные данные сети – это угол поворота рулевого колеса (изображен четкой световой полосой под изображениями справа). Миниатюры представляют активацию единиц в последовательных слоях сети.
Вернемся в 2005 г., один из наших самых успешных в Нью-Йоркском университете. Мы продемонстрировали, что сверточные сети можно использовать для семантической сегментации, то есть для маркировки каждого пикселя изображения определенной категорией объекта, к которому относится пиксель. Мы применяли этот метод для анализа биологических изображений, полученных с помощью микроскопии (рис. 2.10). В будущем этот метод оказался очень полезным для управления роботами и автомобилями, так как позволяет помечать каждый пиксель изображения как доступную для проезда область или как препятствие.
Мы также обучали сверточную сеть сравнению изображений. Для этого мы применили «метрическое обучение», основанное на идее «сиамских сетей», которую я предложил еще в 1994 г. для проверки подлинности подписи. Оно позволяла определять, являются ли два портрета фотографиями одного и того же человека или двух разных людей. Позже эта идея была реализована в системах распознавания лиц[35].
В 2007 г. мы взяли курс на распознавание объектов на естественных изображениях. До сих пор мы работали только с изображениями игрушек, теперь же нам нужно было обрабатывать обычные фотографии и распознавать на них основной объект.

Рис. 2.10. Сверточная сеть для семантической сегментации биологических изображений
Каждый пиксель входного изображения идентифицируется как принадлежащий к одной из пяти категорий: ядро клетки, ядерная мембрана, цитоплазма, клеточная мембрана и внешняя среда. (а) – изображение клетки зародыша нематоды показано на входе в сеть. (b, c и d) – последовательные слои сверточной сети извлекают элементы изображения. (e) – результат состоит из пяти миниатюр, по одной для каждой из пяти категорий областей. В каждой выходной миниатюре яркий пиксель указывает, что соответствующий пиксель во входном изображении был распознан как принадлежащий к категории, связанной с миниатюрой.

Рис. 2.11. Семантическая сегментация изображений города
Каждый пиксель помечен сверточной сетью в категории объекта, которому он принадлежит: автомобиль, проезжая часть, тротуар, здание, дерево, небо, пешеход и т. д.
К сожалению, базы данных изображений, используемые сообществом компьютерного зрения, были тогда невелики. База данных Caltech-101 содержала около 100 категорий объектов, но только по 30 примеров на категорию. Этого было слишком
Ознакомительная версия. Доступно 16 из 82 стр.