Свёрточные нейронные сети (англ. Convolutional neural networks — CNN), вдохновлённые биологическими процессами в зрительной коре человека, хорошо подходят для таких задач, как распознавание объектов и лиц, но повышение точности их работы требует утомительной и тонкой настройки. Вот почему учёные из исследовательского отдела Google AI изучают новые модели, которые «масштабируют» CNN «более структурированным» способом. Результат своей работы они опубликовали в статье «EfficientNet: переосмысление масштабирования моделей для свёрточных нейронных сетей», размещённой на научном портале Arxiv.org, а также в публикации в своём блоге. Соавторы утверждают, что семейство систем искусственного интеллекта, получившее название EfficientNets, превосходит точность стандартных CNN и повышает эффективность нейронной сети до 10 раз.

В отличие от стандартных подходов к масштабированию CNN, команда Google AI предлагает метод, который равномерно масштабирует сразу все базовые параметры нейронной сети

«Обычная практика масштабирования моделей заключается в произвольном увеличении глубины или ширины CNN, а также использовании большего разрешения входного изображения для обучения и оценки», — пишут штатный инженер-программист Минсинг Тан (Mingxing Tan) и ведущий ученый в Google AI Куок Ли (Quoc V. Le). «В отличие от традиционных подходов, которые произвольно масштабируют параметры сети, такие как ширина, глубина и входящее разрешение, наш метод равномерно масштабирует каждое измерение с фиксированным набором коэффициентов масштабирования».

Для дальнейшего повышения производительности исследователи выступают за использование новой базовой сети — мобильной инвертированной свёртки узкого места (англ. mobile inverted bottleneck convolution — MBConv), которая служит основой для семейства моделей EfficientNets.

В тестах EfficientNets продемонстрировало как более высокую точность, так и лучшую эффективность по сравнению с существующими CNN, на порядок уменьшив требование к размеру параметров и вычислительным ресурсам. Одна из моделей — EfficientNet-B7, продемонстрировала в 8,4 раза меньший размер и в 6,1 раза лучшую производительность, чем известная CNN Gpipe, а также достигла 84,4 % и 97,1 % точности (Топ-1 и Топ-5 результат) в тестировании на наборе ImageNet. По сравнению с популярной CNN ResNet-50, другая модель EfficientNet — EfficientNet-B4, используя аналогичные ресурсы, продемонстрировала точность в 82,6 % против 76,3 % у ResNet-50.

Модели EfficientNets хорошо показали себя и на других наборах данных, достигнув высокой точности в пяти из восьми тестов, включая наборы CIFAR-100 (точность 91,7 %) и Flowers (98,8 %).

Сравнение размеров модели и точности распознавания для популярных CNN и EfficientNets

«Обеспечивая значительные улучшения эффективности нейронных моделей, мы ожидаем, что EfficientNets потенциально может послужить новой основой для будущих задач в области компьютерного зрения», — пишут Тан и Ли.

Исходный код и учебные сценарии для облачных тензорных процессоров (TPU) от Google находятся в свободном доступе на Github.