Різне

Gemini Возвращается с Исправленными Лицами и Новыми Возможностями

28.08.2024

108

В мире ИИ-инноваций Google не стоит на месте. После краткого перерыва, вызванного волной критики по поводу исторических неточностей в генерации изображений людей, Gemini, чат-бот на базе искусственного интеллекта от Google, возвращается с обновленной функцией “people generation” и новыми инструментами для пользователей.

Исправление Неточностей: Imagen 3 на Постое

В феврале Google приостановил генерацию изображений людей в Gemini из-за того, что модель демонстрировала стереотипные и анахроничные представления о различных культурах. Римские легионеры представали с расовыми особенностями, не соответствующими исторической реальности, а воины зулу были однобоко представлены как исключительно черные. Генеральный директор Google Сундар Пичаи публично извинился, а Демис Хассабис, соучредитель DeepMind, пообещал скорейшее исправление.

И вот оно наступило! Google утверждает, что в Gemini теперь используется новейшая модель Imagen 3, которая прошла серьезную доработку с целью повышения “честности” и точности изображений людей. Imagen 3 обучен создавать подписи с помощью ИИ, чтобы обогатить обучающие данные разнообразием концепций, связанных с изображениями. Кроме того, данные были отфильтрованы по критериям безопасности и пересмотрены с учетом вопросов справедливости.

Google не раскрывает подробности о конкретном составе обучающих данных Imagen 3, ограничиваясь лишь упоминанием “большого набора данных, включающего изображения, текст и соответствующие аннотации”. Компания подчеркивает масштабное внутреннее и внешнее тестирование с привлечением новых сотрудников и независимых экспертов для непрерывного совершенствования модели.

Премиум-Доступ и Расширение Функционала

На данный момент функция “people generation” доступна только подписчикам платных тарифов Gemini: Advanced, Business или Enterprise. Это ограниченное тестирование на английском языке в рамках раннего доступа. Google не раскрывает сроков расширения функционала для бесплатного уровня и других языков, лишь заявляя о приоритетном доступе для премиум-пользователей.

Вместе с исправленной “people generation” Gemini получает еще один мощный инструмент – Gems. Аналогично GPTs от OpenAI, Gems представляют собой специализированные версии Gemini, выступающие в роли экспертов по определенным темам. Представьте себе виртуального шеф-повара для вегетарианской кухни, наставника по карьере или даже партнера по программированию – все это Gems.

Пользователи создают Gems, задавая инструкции, придумывая имя и запуская процесс обучения. Gems доступны на настольных компьютерах и мобильных устройствах в 150 странах и “на большинстве языков” (кроме Gemini Live). Google пока не планирует открытый доступ к публичному использованию и распространению Gem-файлов, как это реализовано с GPT-файлами в OpenAI GPT Store.

Imagen 3: Новая Эра Визуального Искусства

Все пользователи Gemini (за исключением тех, кто не подписан на премиум-уровни) получат доступ к Imagen 3 уже в ближайшие дни. Эта модель, по утверждению Google, превосходит предшественника Imagen 2 по точности понимания текстовых подсказок, креативности и детализации изображений. Она генерирует меньше артефактов и ошибок, становясь лидером в области текстового рендеринга.

Для борьбы с потенциальными подделками Imagen 3 будет использовать SynthID – технологию DeepMind, наносящую невидимые криптографические водяные знаки на созданные ИИ объекты. Это дополнительно укрепляет доверие к изображениям, генерируемым Gemini.

Взаимодействие Google с “people generation” в Gemini и другими продуктами, такими как Pixel Studio, демонстрирует комплексный подход к этике и ответственному использованию ИИ в визуальном искусстве. Gemini, вооруженный исправленными алгоритмами и новыми инструментами, готовится к новому этапу развития, обещая пользователям более точные, креативные и надежные возможности.