Yandex представляет YandexGPT 5: новый взгляд на языковые модели

Яндекс анонсировал новое поколение языковых моделей — YandexGPT 5, одну из которых выпустили в открытый доступ. В этой статье мы обсудим, как обучаются нейросети, а также разберём понятия предобучения и дообучения.

Этап 1: предобучение — это начальный процесс, в ходе которого языковая модель получает базовые знания. Его можно сравнить с учебным процессом в школе, где модель знакомится с основными концепциями и темами.

В ходе предобучения нейросеть считывает текст из большого набора данных и пытается его продолжить. Таким образом, она обучается создавать тексты, схожие с теми, что пишут люди.

Этот этап является наиболее ресурсоёмким в разработке языковой модели, так как модель обрабатывает триллионы токенов, собранных в интернете. Многие компании делятся своими наработками, выкладывая в открытый доступ базовые модели, которые удобнее адаптировать под специфические задачи.

Сегодня Яндекс представил в опенсорсе базовую модель YandexGPT 5 Lite, которая может использоваться в различных сферах, включая разработку и научные исследования. Благодаря своей компактности YandexGPT-5-Lite Pretrain требует минимальных вычислительных мощностей, что делает её полезной для работы с русскоязычной аудиторией.

Этап 2: дообучение — это процесс, позволяющий превратить базовую модель в полноценного помощника. Здесь модель учится воспринимать текст запроса от пользователя и предоставлять осмысленные ответы.

Во время дообучения нейросеть учится отличать запросы от ответов, понимает контекст общения и генерирует текст, который решает поставленную задачу. Эти навыки развиваются на основе датасетов, содержащих диалоги между человеком и помощником, которые тренируют ИИ-тренеры, создавая различные примеры взаимодействий.

При создании YandexGPT 5 Pro инженеры улучшили обучающий набор данных, добавив более сложные примеры, что позволило модели эффективнее отвечать на трудные вопросы. Также были внедрены методы обучения с подкреплением и различные оптимизации, позволяющие сократить затраты на вычислительные ресурсы до 25%.

Качество работы новой модели доступно для оценки пользователями через Алису и для разработчиков через Yandex Cloud Foundation Models.

Источник: @techno_yandex

TrendByte.ru

Или проверьте наши популярные категории...

TrendByte.ru

Или проверьте наши популярные категории...

Yandex представляет YandexGPT 5: новый взгляд на языковые модели

Похожие новости

TSMC ускоряет строительство новых заводов в США для производства передовых чипов

Крупная кибератака парализовала работу сети винных магазинов, нанеся миллиардерские убытки

Вы могли пропустить

Как безопасно загорать и использовать солнцезащитные средства с помощью виртуальной помощницы

TSMC ускоряет строительство новых заводов в США для производства передовых чипов

Как работает эффект Баадера-Майнхоф и роль алгоритмов в нашей жизни

Крупная кибератака парализовала работу сети винных магазинов, нанеся миллиардерские убытки

Государственный список запрещённых пиратских сайтов: что нужно знать

Возможное введение функции проверки возраста в Telegram с помощью распознавания лиц