
Cohere разработали модель под названием Aya Vision, которая поддерживает работу с текстом и картинками на 23 языках.
Версия с 32 миллиардами параметров демонстрирует лучшие результаты в тестах по анализу изображений, превосходя модель Llama-3.2 от Meta, имеющую 90 миллиардов параметров.
Даже уменьшенная версия с 8 миллиардами параметров удивляет — она получила более высокие оценки по сравнению с моделями, объем которых в десять раз больше.
Aya Vision доступна для бесплатного использования на платформе Hugging Face в некоммерческих целях.
Источник: @typespace