Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун

Рис. 2.3. LeNet5. Коммерчески развернутая сверточная сеть для распознавания рукописных символов
Архитектура сети второго поколения состоит из семи слоев. Она намного больше предыдущей и использует отдельные слои для свертки и подключения (см. главу 6). Она может распознавать в том числе числа, написанные от руки без соблюдения почтовых правил.
NCR и Lucent продолжали продавать новую продукцию. В конце 1990-х наша система считывала 10–20 % всех чеков, выпущенных в США. Это был один из самых впечатляющих успехов в области нейронных сетей того десятилетия.
Тем не менее, новая телекоммуникационная компания AT&T не была особенно заинтересована в технологиях такого рода. На дворе был 1996 г. – самый разгар Интернет-бума. Меня повысили до начальника отдела, и мне нужно было найти новый проект для моей группы. Мы решили приступить к сжатию изображений, чтобы сканировать бумажные документы с высоким разрешением и распространять их через Интернет. Я надеялся, что библиотеки по всему миру отсканируют свои коллекции книг, чтобы они стали доступными в Интернете. Но для этого была нужна подходящая техника. Она будет представлена в 1998 г. под названием DjVu (произносится «дежавю» по-французски). Алгоритм DjVu может сжимать страницу, отсканированную с высоким разрешением, примерно до 50 килобайт, что в десять раз меньше, чем в формате JPEG или PDF.
К сожалению, AT&T не смогла вывести DjVu на рынок. То, что крупные компании плохо продавали инновации, выпущенные их лабораториями, было, увы, в порядке вещей. Вспомним печально известный провал компании Xerox, чья калифорнийская лаборатория PARC изобрела всю современную автоматизацию офиса – персональные рабочие станции, компьютерные сети, системы многоярусного графического отображения, компьютерную мышь и лазерный принтер. Однако маркетологи компании не смогли продать ничего из этого, в результате чего Стив Джобс и Apple смогли скопировать эту концепцию с помощью своих систем Lisa и Macintosh.
Наши работодатели, AT&T, потерпели ту же неудачу. Изобретения Bell Labs, ее отдела исследований и разработок, безусловно, оказали определенное влияние на материнскую организацию. Однако деньги на продаже транзисторов и солнечных элементов, камер CCD и операционной системе Unix, а также языках программирования C и C++ заработали совсем другие компании. К сожалению, AT&T не позаботилась о и таких технологиях как DjVu и решила продать лицензию на нее за десяток миллионов долларов одной компании в Сиэтле, уже работающей с рынком изображений – LizardTech, которая также упустила благоприятные маркетинговые возможности. Мы посоветовали LizardTech распространить базовый код как открытый исходный код. Мы знали, что единственный способ добиться признания нового формата – сделать его доступным для всех. Увы! Забота о «контроле» и прибыли заставила их хранить код в секрете. Позже они передумали, но было уже слишком поздно. Впрочем, это уже другая история…
Почти табу
С 1995 г. снова начались темные времена. Даже наши идеи сверточных сетей не были приняты, не говоря уже об их практическом применении в других областях. С Йошуа Бенжио, который вернулся в Монреаль, но остался сотрудником моей лаборатории на неполный рабочий день, Джеффри Хинтоном, уехавшим из Торонто, чтобы основать лабораторию теоретической нейробиологии в Лондоне, и некоторыми другими, мы снова остались одни в борьбе за нейронные сети. Почему пропал интерес к нейронным сетям в сообществе машинного обучения? Это загадка, которую еще предстоит разгадать историкам и социологам. Тема нейронных сетей оказалась чуть ли не под запретом. О них тогда говорили примерно так: «Сверточные сети? Чушь собачья! Говорят, что они настолько сложны, что только Ян ЛеКун способен заставить их работать».
Технические недоработки, несомненно, препятствовали распространению сверточных сетей: они требовали больших вычислительных ресурсов, а компьютеры в то время были медленными и дорогими, да и наборы данных оказывались слишком малы – ведь это был период времени до Интернет-бума. Поэтому их нужно было собирать самостоятельно, а это имело свою цену в деньгах и ограничивало количество приложений. Наконец, программное обеспечение для нейронных сетей, такое как SN, должно было быть написано от руки от А до Я самими исследователями: огромная трата времени. Кроме того, AT&T не позволила нам распространить наш симулятор нейронной сети SN с открытым исходным кодом, который, возможно, позволил бы ускорить внедрение сверточных сетей. В то время компании придерживались принципа «каждый сам за себя».
В 1991 г. Леон Ботту, только получивший докторскую степень, присоединился к нам в Bell Labs. Но тогда ему не понравились Соединенные Штаты, и через год он вернулся во Францию, чтобы возглавить стартап Neuristique, который он ранее основал с некоторыми своими друзьями. Эта фирма продавала одну из версий SN и предложила услуги компаниям, желающим внедрить нейронные сети. Их системы работали настолько хорошо, что сотрудники фирмы часто сталкивались с недоверием своих потенциальных клиентов. Эксперты, консультирующие этих клиентов, утверждали, что все, что делает Neuristique, «невозможно», несмотря на бесспорные результаты! Поэтому после нескольких лет застоя Леон решил вернуться к исследованиям. Он снова присоединился к нам в Bell Labs и принял решение остаться в США.
По всем этим причинам исследователи машинного обучения отказались от нейронных сетей. Они предпочли им SVM (англ. Support Vector Machine, метод опорных векторов) и «ядерные методы». По иронии судьбы эти методы тоже были изобретены коллегами и друзьями из нашей лаборатории: Изабелем Гайон, Владимиром Вапником и Бернхардом Бозером в период с 1992 по 1995 г. С 1995 по 2010 г. ядерные методы стали «флагманом» машинного обучения. Сообщество проявило интерес и к другому набору методов – «усилению», разработанному Робом Шапиро и Йоавом Фройндом, коллегами из другого отдела Bell Labs. Мы все были хорошими друзьями. Та ситуация дала нам представление об интеллектуальных разногласиях в стенах нашей компании. Таким образом, в области нейронных сетей снова настал кризис, который продлился почти 15 лет.
В 1995 г. Ларри Джекель все еще верил в будущее сверточных сетей и был разочарован тем, что им предпочли SVM. Владимир Вапник – математик. Ему нравились методы, работу которых можно было гарантировать с помощью математических теорем. Нейронные сети ему не нравились, потому что они были слишком сложными, чтобы их можно было объяснить хорошей теорией. Поэтому Ларри решил заключить с математиком пари.
Во-первых, Ларри поставил на то, что до 14 марта 2000 г. появится математическая теория, объясняющая, почему нейронные сети могут хорошо работать. Вапник сделал ставку на обратное… согласившись на одно условие: если человеком, разработавшим теорию, окажется сам Вапник, то он выигрывает пари. Лучшего способа заставить Владимира заняться этой теорией
Ознакомительная версия. Доступно 16 из 82 стр.