Инновации в нейросетях: архитектура ‘Титан’ от Google

Инженеры Google стремятся повысить эффективность нейросетей, обучая их удивляться и забывать. Современные модели часто имеют трудности с обработкой длинных данных и извлечением новых знаний, что критически важно для решения реальных задач. Память нейросетей может выглядеть как запутанная матрица, из которой сложно извлечь нужную информацию.

Представленная архитектура под названием ‘Титан’, разработанная в Google Research, направлена на приближение ИИ к возможностям человеческого мозга благодаря многоуровневой структуре памяти.

Как это устроено?

Память системы ‘Титан’, как и у человека, делится на три части: кратковременную (для текущей задачи), долговременную (содержит данные о прошлом) и постоянную, представляющую собой базовые знания, независимые от контекста.

Нейросеть обладает способностью удивляться: она лучше запоминает неожиданную информацию и может «забывать» ненужные данные, освобождая ресурсы для обработки актуальной информации.

Кроме того, ‘Титан’ постоянно обучается, фильтруя информацию на важную и менее полезную, а кластеризация памяти происходит активным образом.

Эта новая архитектура превосходит GPT-4, Llama3-80B и другие модели в тестах рассуждений и извлечении данных из огромных массивов текстов, применяемых в реальных задачах, в том числе в области моделирования ДНК.

Архитектура ‘Титан’ способна обрабатывать более 2 млн токенов (примерно 6 тысяч страниц текста), в то время как экспериментальные модели Gemini от Google справляются с этим объемом менее эффективно. Для сравнения, GPT-4 имеет контекстное окно в 128 тыс. токенов.

Источник: @hiaimedia