Google I/O 2025 — що показали на конференції у перший день
З 21 травня в американському місті Маунтін-В’ю проходить велика щорічна конференція розробників Google I/O 2025 — вона триватиме до 22 травня. У перший день техногігант презентував багато новинок, пов’язаних зі своїм штучним інтелектом.
Зокрема: нові моделі генерації моделі фото та відео (навіть зі звуком), покращення сімейства Gemini, ШІ-інструмент для створення UI-елементів та коду Stitch і ще багато чого іншого. AIN збиратиме усі анонси та публікуватиме тут.
Google I/O 2025 — що показали у перший день
Google Beam
Кілька років тому на конференції компанія представила технологію Project Starline для дистанційного спілкування. За допомогою 3D-відео вона створювала відчуття присутності в кімнаті іншої людини.
Google вдосконалили цю технологію і тепер показали Google Beam. Це нова платформа відеозв’язку з штучним інтелектом, що перетворює 2D відео на 3D. Для цього застосовується шість камер і ШІ — вони об’єднують відео та створюють зображення на 3D-дисплеї з світловим полем.
Google заявляє, що система забезпечує майже ідеальне відстеження положення голови з точністю до міліметра й працює в реальному часі з частотою 60 кадрів на секунду. У співпраці з HP перші Google Beam стануть доступними вже цього року.
Google AI Ultra
Компанія представила новий план підписки на свій штучний інтелект із найвищими лімітами та з доступом до передових моделей і функцій, який поки що буде доступний тільки у США. Її ціна — $249,99 на місяць, зі знижкою 50% на три місяці для перших користувачів.
Переклад мови в Google Meet
Тепер в Google Meet буде доступна функція перекладу мови в режимі рального часу — при цьому зберігаються звучання голосу, інтонації та емоції.
Йдеться, що переклад англійською та іспанською мовами вже доступний для передплатників Google AI Pro та Ultra у бета-версії, а інші мови з’являться протягом наступних кількох тижнів.
Цього року ця функція буде доступна для бізнес-клієнтів Workspace для раннього тестування.
Вдосконалення Gemini 2.5 Pro та 2.5 Flash
Google додає нові функції до своєї флагманської моделі 2.5 Pro та легшої 2.5 Flash: вбудований аудіовихід для природнішої розмови, покращені механізми безпеки та можливості використання комп’ютера, що реалізуються в межах Project Mariner.
Модель 2.5 Pro також отримає Deep Think — експериментальний режим із розширеним логічним мисленням для розв’язування складних математичних задач та програмування.
Для розробників техногігант додав «пояснення думок» в Gemini API та Vertex AI, розширили «бюджети на мислення» для 2.5 Pro, що дає більше контролю, та інтегрували підтримку інструментів MCP в Gemini API і SDK, забезпечуючи доступ до ще більшої кількості open source-інструментів.
Gemini 2.5 Flash тепер доступна для всіх у застосунку. Оновлена версія буде загальнодоступною в Google AI Studio для розробників і у Vertex AI для компаній вже на початку червня. А 2.5 Pro — незабаром після цього.
Досягнення в генеративних моделях
Flow
Flow — це новина від Google, вперше представлена на цій конференції. Це інструмент на основі штучного інтелекту для кінематографа, він створює кліпи, сцени та історії, об’єднуючи інші моделі: Veo, Imagen та Gemini.
Flow вже доступний у США для передплатників Google AI Pro та Ultra. Очікується розширення на інші країни найближчим часом.
Veo 3
Veo 3 — наступне покоління ШІ-сімейства компанії для створення відео. Але ця нова модель відрізняється тим, що може генерувати не тільки відео, а ще й звук — шум транспорту, вулиці та навіть діалоги між персонажами, як на цьому відео.
Модель буде доступна передплатникам нового тарифного плану Ultra у Gemini та у Flow, але тільки у США. Також її зможуть спробувати корпоративні користувачі Vertex AI.
Imagen 4
А це нове поповнення у сімействі ШІ-моделей для генерації зображень. Google каже, що Imagen 4 чудово справляється із фотореалістичним стилем та дуже чітка у створені дрібних деталей — наприклад тканин, хутра чи крапель води. А також краще справляється з орфографією та типографікою.
Модель вже доступна в застосунку Gemini, Whisk, Vertex AI, а також у Slides, Videos, Docs та інших інструментах у Workspace.
Lyria 2
ШІ-модель для музикантів Lyria 2 тепер доступна для авторів контенту через YouTube Shorts, а також для бізнесу через Vertex AI. Крім того, компанія зробила Lyria RealTime — інтерактивну модель генерації музики, яка лежить в основі MusicFX DJ, доступною через API та в AI Studio.
Project Astra
Google розробляє на основі своєї флагманської моделі Gemini дослідницький прототип під назвою Project Astra. Його мета — створити універсального ШІ-асистента, який зможе вести розмови в реальному часі, пам’ятати попередні бесіди та бачити світ за межами себе.
Project Astra презентували ще торік, але тепер ШІ не тільки спостерігає і слухає, а й керує смартфоном — компанія показала ці можливості на телефоні Pixel 9 Pro. За допомогою голосового запиту, ШІ самостійно шукає PDF-файли, якусь інформацію в інтернеті, відкриває на YouTube потрібне відео тощо. Користувачу не треба навіть торкатися телефону.
Ще з нового — Gemini Live тепер включає можливості Project Astra щодо камери та спільного використання екрана. Функція вже доступна всім користувачам Android і починає розгортатися для користувачів iOS.
TechCrunch також пише, що Google зараз працює над створенням окулярів Project Astra у співпраці з партнерами, зокрема Samsung та Warby Parker. Але конкретна дата запуску ще не визначена.
Project Mariner
Project Mariner — це експериментальний ШІ-агент від Google, який може переглядати та користуватися сайтами. У компанії повідомили, що суттєво оновили принцип роботи Project Mariner: тепер агент може робити майже десяток завдань одночасно, і його вже починають поступово впроваджувати для користувачів.
Наприклад, користувачі Project Mariner можуть придбати квитки на матч або зробити онлайн-покупки, не заходячи на сторонні сайти. Достатньо просто поспілкуватися з ШІ-агентом Google — і той самостійно все зробить.
Stitch
Stitch — це новий інструмент на основі Gemini 2.5 Pro для проєктування інтерфейсів сайтів та мобільних застосунків.Він може генерувати необхідні UI-елементи та код через текстові підказки. Користувач може завантажити зображення — і отримати HTML- та CSS-розмітку для згенерованого дизайну. А готовий результат легко Figma для доопрацювання.
Крім того, Google розширила доступ до Jules — свого ШІ-агента, що допомагає розробникам виправляти помилки в коді.
Більше ШІ
Журналісти TechCrunch, які побували на конференції, також додають, що:
- Google запускає Gemini в Chrome — новий ШІ-асистент для браузера, який допоможе користувачам швидко зрозуміти контекст сторінки та виконувати різноманітні завдання.
- Gemma 3n — це модель, створена для «плавної» роботи на смартфонах, ноутбуках і планшетах. Починаючи з вівторка, вона доступна в попередньому перегляді. За словами Google, модель здатна працювати з аудіо, текстом, зображеннями та відео.
- Компанія анонсувала безліч нових ШІ-функцій для Workspace — зокрема для Gmail, Google Docs та Google Vids.
- Найпомітніше: Gmail отримає персоналізовані розумні відповіді та нову функцію очищення вхідних, а в Google Vids з’являться нові інструменти для створення й редагування відеоконтенту.
- У NotebookLM з’являться відеоогляди, і ще Google запустила портал перевірки SynthID Detector — він використовує технологію водяних знаків SynthID для виявлення згенерованого ШІ контенту.
Що було на минулорічний конференції Google – читайте тут.