Мастер на все руки: обсуждаем возможности современных нейронных сетей

Разработанный несколько лет назад тип архитектуры нейросетей под названием «трансформер» становится все популярным, его использую для решения абсолютно разных нестандартных задач. Чаще всего этот инструмент применяют в работе с языком, но ученые считают, что в будущем трансформер будет самым востребованным типом архитектуры.

Преимущество нейросети заключается в том, что она обрабатывает информацию в рандомном порядке, если мы говорим о работе с языком, трансформер изучает текст полностью, а не планомерно. Такой подход дает возможность анализировать слова в контексте, а не обособленно.

Летом 2020 года в мире разработчиков фурор произвел генератор текста GPT-3 (Generative Pre-trained Transformer). Именно трансформер обрабатывает для него текст. Искусственный интеллект отвечает на вопросы, пишет стихи, новостные заметки, финансовую аналитику и даже пишет программные коды. Хотя GPT-3 и называют генератором «хорошо звучащей чуши», разработчики пророчат ему большое будущее.

На этом ученые не останавливаются. Например, они планируют использовать трансформер в работе с компьютерным зрением – распознавание изображений. А еще его можно применить для апгрейда беспилотных автомобилей.

В 2021 у классического трансформера появился брат близнец, он работает не с текстом, а с изображением. Он анализирует не отдельные пиксели, как это делали его предшественники, а группы пикселей. В чем его преимущество? Такая обработка быстрее и точнее.

На функции анализа разработчики не остановились, теперь трансформер не только анализирует тексты и изображения, он их создает. Атлас Ван из Техасского университета в своей научной работе описал механизм создания изображения нейронной сетью. 

Кажется, области применения нейросети безграничны: трансформер может учить роботов распознаванию движений и идентификации эмоций человека. И это не предел, в дальнейшем функционал будет расширяться.