
Яндекс анонсировал новое поколение языковых моделей — YandexGPT 5, одну из которых выпустили в открытый доступ. В этой статье мы обсудим, как обучаются нейросети, а также разберём понятия предобучения и дообучения.
Этап 1: предобучение — это начальный процесс, в ходе которого языковая модель получает базовые знания. Его можно сравнить с учебным процессом в школе, где модель знакомится с основными концепциями и темами.
В ходе предобучения нейросеть считывает текст из большого набора данных и пытается его продолжить. Таким образом, она обучается создавать тексты, схожие с теми, что пишут люди.
Этот этап является наиболее ресурсоёмким в разработке языковой модели, так как модель обрабатывает триллионы токенов, собранных в интернете. Многие компании делятся своими наработками, выкладывая в открытый доступ базовые модели, которые удобнее адаптировать под специфические задачи.
Сегодня Яндекс представил в опенсорсе базовую модель YandexGPT 5 Lite, которая может использоваться в различных сферах, включая разработку и научные исследования. Благодаря своей компактности YandexGPT-5-Lite Pretrain требует минимальных вычислительных мощностей, что делает её полезной для работы с русскоязычной аудиторией.
Этап 2: дообучение — это процесс, позволяющий превратить базовую модель в полноценного помощника. Здесь модель учится воспринимать текст запроса от пользователя и предоставлять осмысленные ответы.
Во время дообучения нейросеть учится отличать запросы от ответов, понимает контекст общения и генерирует текст, который решает поставленную задачу. Эти навыки развиваются на основе датасетов, содержащих диалоги между человеком и помощником, которые тренируют ИИ-тренеры, создавая различные примеры взаимодействий.
При создании YandexGPT 5 Pro инженеры улучшили обучающий набор данных, добавив более сложные примеры, что позволило модели эффективнее отвечать на трудные вопросы. Также были внедрены методы обучения с подкреплением и различные оптимизации, позволяющие сократить затраты на вычислительные ресурсы до 25%.
Качество работы новой модели доступно для оценки пользователями через Алису и для разработчиков через Yandex Cloud Foundation Models.
Источник: @techno_yandex