Yandex представляет YandexGPT 5: новый взгляд на языковые модели

Yandex представляет YandexGPT 5: новый взгляд на языковые модели

Яндекс анонсировал новое поколение языковых моделей — YandexGPT 5, одну из которых выпустили в открытый доступ. В этой статье мы обсудим, как обучаются нейросети, а также разберём понятия предобучения и дообучения.

Этап 1: предобучение — это начальный процесс, в ходе которого языковая модель получает базовые знания. Его можно сравнить с учебным процессом в школе, где модель знакомится с основными концепциями и темами.

В ходе предобучения нейросеть считывает текст из большого набора данных и пытается его продолжить. Таким образом, она обучается создавать тексты, схожие с теми, что пишут люди.

Этот этап является наиболее ресурсоёмким в разработке языковой модели, так как модель обрабатывает триллионы токенов, собранных в интернете. Многие компании делятся своими наработками, выкладывая в открытый доступ базовые модели, которые удобнее адаптировать под специфические задачи.

Сегодня Яндекс представил в опенсорсе базовую модель YandexGPT 5 Lite, которая может использоваться в различных сферах, включая разработку и научные исследования. Благодаря своей компактности YandexGPT-5-Lite Pretrain требует минимальных вычислительных мощностей, что делает её полезной для работы с русскоязычной аудиторией.

Этап 2: дообучение — это процесс, позволяющий превратить базовую модель в полноценного помощника. Здесь модель учится воспринимать текст запроса от пользователя и предоставлять осмысленные ответы.

Во время дообучения нейросеть учится отличать запросы от ответов, понимает контекст общения и генерирует текст, который решает поставленную задачу. Эти навыки развиваются на основе датасетов, содержащих диалоги между человеком и помощником, которые тренируют ИИ-тренеры, создавая различные примеры взаимодействий.

При создании YandexGPT 5 Pro инженеры улучшили обучающий набор данных, добавив более сложные примеры, что позволило модели эффективнее отвечать на трудные вопросы. Также были внедрены методы обучения с подкреплением и различные оптимизации, позволяющие сократить затраты на вычислительные ресурсы до 25%.

Качество работы новой модели доступно для оценки пользователями через Алису и для разработчиков через Yandex Cloud Foundation Models.

Источник: @techno_yandex

Похожие новости

Nothing применяет креативные маркетинговые ходы перед анонсом новых устройств

Компания Nothing продолжает привлекать внимание к своему бренду с помощью ярких и провокационных маркетинговых решений. Глава компании использовал приглашение Apple на мартовское мероприятие, чтобы поверх его разместить свое изображение с…

Пользователи ищут способы улучшить комфорт использования Samsung Galaxy XR через самодельные модификации

Некоторые владельцы Samsung Galaxy XR сталкиваются с проблемой неудобства при длительном ношении устройства, которое стоит около 1800 долларов. Несмотря на первоначальное ощущение, что устройство лучше конкурентов, его использование вызывает усталость…