Мультимодальные модели представляют собой алгоритмы, способные работать не только с текстом, но и картинками, видео и аудио. В статье про языковую модель GPT-4 мы писали, что согласно прогнозам, уже она должна стать мультимодальной. И вот прогнозы, похоже, сбываются — обновление, которое OpenAI обещает «раскатать» на всех в течение двух недель, наделит нейросеть способностью синтеза и распознавания речи, а также анализа изображений.
В мобильном приложении нейросети уже доступен голосовой ввод, но этим никого не удивишь. Синтез речи, который скоро тоже будет доступен всем, включить не так просто. Для этого зайдите в мобильное приложение, перейдите в Settings, а затем нажмите New Features и выберите Voice conversations. Затем нажмите кнопку наушников, расположенную в правом верхнем углу главного экрана, и выберите один из пяти голосов, которым будет говорить нейросеть.
27 сентября 2023
Эта нейросеть восстанавливает старые фото – протестировали ее
25 сентября 2023
Как спрятать слова в… котиках — тест хайпового сервиса Glif