
Инженеры Google стремятся повысить эффективность нейросетей, обучая их удивляться и забывать. Современные модели часто имеют трудности с обработкой длинных данных и извлечением новых знаний, что критически важно для решения реальных задач. Память нейросетей может выглядеть как запутанная матрица, из которой сложно извлечь нужную информацию.
Представленная архитектура под названием ‘Титан’, разработанная в Google Research, направлена на приближение ИИ к возможностям человеческого мозга благодаря многоуровневой структуре памяти.
Как это устроено?
Память системы ‘Титан’, как и у человека, делится на три части: кратковременную (для текущей задачи), долговременную (содержит данные о прошлом) и постоянную, представляющую собой базовые знания, независимые от контекста.
Нейросеть обладает способностью удивляться: она лучше запоминает неожиданную информацию и может «забывать» ненужные данные, освобождая ресурсы для обработки актуальной информации.
Кроме того, ‘Титан’ постоянно обучается, фильтруя информацию на важную и менее полезную, а кластеризация памяти происходит активным образом.
Эта новая архитектура превосходит GPT-4, Llama3-80B и другие модели в тестах рассуждений и извлечении данных из огромных массивов текстов, применяемых в реальных задачах, в том числе в области моделирования ДНК.
Архитектура ‘Титан’ способна обрабатывать более 2 млн токенов (примерно 6 тысяч страниц текста), в то время как экспериментальные модели Gemini от Google справляются с этим объемом менее эффективно. Для сравнения, GPT-4 имеет контекстное окно в 128 тыс. токенов.
Источник: @hiaimedia