Yandex представляет YandexGPT 5: новый взгляд на языковые модели

Yandex представляет YandexGPT 5: новый взгляд на языковые модели

Яндекс анонсировал новое поколение языковых моделей — YandexGPT 5, одну из которых выпустили в открытый доступ. В этой статье мы обсудим, как обучаются нейросети, а также разберём понятия предобучения и дообучения.

Этап 1: предобучение — это начальный процесс, в ходе которого языковая модель получает базовые знания. Его можно сравнить с учебным процессом в школе, где модель знакомится с основными концепциями и темами.

В ходе предобучения нейросеть считывает текст из большого набора данных и пытается его продолжить. Таким образом, она обучается создавать тексты, схожие с теми, что пишут люди.

Этот этап является наиболее ресурсоёмким в разработке языковой модели, так как модель обрабатывает триллионы токенов, собранных в интернете. Многие компании делятся своими наработками, выкладывая в открытый доступ базовые модели, которые удобнее адаптировать под специфические задачи.

Сегодня Яндекс представил в опенсорсе базовую модель YandexGPT 5 Lite, которая может использоваться в различных сферах, включая разработку и научные исследования. Благодаря своей компактности YandexGPT-5-Lite Pretrain требует минимальных вычислительных мощностей, что делает её полезной для работы с русскоязычной аудиторией.

Этап 2: дообучение — это процесс, позволяющий превратить базовую модель в полноценного помощника. Здесь модель учится воспринимать текст запроса от пользователя и предоставлять осмысленные ответы.

Во время дообучения нейросеть учится отличать запросы от ответов, понимает контекст общения и генерирует текст, который решает поставленную задачу. Эти навыки развиваются на основе датасетов, содержащих диалоги между человеком и помощником, которые тренируют ИИ-тренеры, создавая различные примеры взаимодействий.

При создании YandexGPT 5 Pro инженеры улучшили обучающий набор данных, добавив более сложные примеры, что позволило модели эффективнее отвечать на трудные вопросы. Также были внедрены методы обучения с подкреплением и различные оптимизации, позволяющие сократить затраты на вычислительные ресурсы до 25%.

Качество работы новой модели доступно для оценки пользователями через Алису и для разработчиков через Yandex Cloud Foundation Models.

Источник: @techno_yandex

Похожие новости

TSMC ускоряет строительство новых заводов в США для производства передовых чипов

Китайская компания по производству полупроводников объявила о скорейшем завершении строительства двух новых фабрик в Соединённых Штатах. По словам генерального директора, около 30% мощностей по производству микросхем с передовым техпроцессом 2…

Крупная кибератака парализовала работу сети винных магазинов, нанеся миллиардерские убытки

Национальная сеть магазинов, специализирующаяся на продаже алкоголя, столкнулась с масштабной кибератакой, которая привела к остановке работы более 2000 точек по всей территории страны. Компании, управляющей сетью, сообщили, что злоумышленники требуют…