Учёные из Британии и Китая создали то, о чём давно мечтают владельцы домашних животных — «кошачий переводчик». Новая мультимодальная модель Meow-Omni-1 способна анализировать поведение кошек и интерпретировать их потребности. Фактически, это специализируемый ИИ для изучения кошачьей этологии — науки о поведении животных. Проект уже опубликован на платформе Hugging Face, модель распространяется в открытом доступе.
Meow-Omni-1 обрабатывает различные типы данных, включая видео, аудио, изображения и текст, что позволяет ей анализировать кошачье мяуканье, поведение и взаимодействие с человеком. Судя по описанию, модель обучают распознавать эмоции, поведение, состояние и коммуникацию кошек. Простыми словами, она может определять настроение животного, анализировать позы и движения, интерпретировать мяуканье, связывать визуальные и звуковые сигналы с конкретным поведением. ИИ-модель обучалась на мультимодальных наборах данных и ориентирована на более глубокое понимание коммуникации между человеком и питомцем. В ходе оценки на MeowBench модель Meow-Omni-1 достигает 71,16% точности распознавания намерений, существенно превосходя ведущие базовые модели распознавания речи на основе визуального языка и мультмодальных данных.
По поведению, движениям и звукам кошки модель определяет около 30 различных состояний. Например, желание есть, играть, спать и прочее. Однако ключевая задача проекта состояла в том, чтобы выявить признаки боли у животного. Это может быть применено в ветеринарной практике для диагностики состояния и выявления заболеваний.