
Прибуття Gemini 3.1 Flash Live для пошуку в реальному часі та Gemini Live Це знаменує собою новий крок для Google у гонці за голосові інтерфейси в режимі реального часу. Компанія починає розгортати досвід розмовного пошуку який поєднує аудіо, відео та пошукову систему Google, і який вже активується в Іспанії та більшій частині Європи.
За цією стратегією стоїть аудіомодель наступного покоління, розроблений для реагування майже зі швидкістю людської розмовиЦе дозволяє користувачам розуміти нюанси мовлення та ефективніше орієнтуватися в повсякденному середовищі, враховуючи фоновий шум, переривання та низку запитань. Google представляє її як свою найсучаснішу голосову систему на сьогоднішній день, розроблену як для звичайних користувачів, так і для розробників та бізнесу.
Що таке Search Live і як він працює з Gemini 3.1 Flash Live
Пошук у прямому ефірі, який іспанською мовою стає відомим як Пошук у реальному часіЦе функція, яка поєднує пошук Google у «режимі штучного інтелекту» з досвідом Gemini Live.На практиці це дозволяє вам спілкуватися з пошуковою системою в режимі реального часу, використовуючи ваш голос і, за бажанням, камеру вашого мобільного телефону для забезпечення візуального контексту.
В Іспанії цю функцію вмикають у рамках Додаток Google для Android та iOSВідкривши застосунок і натиснувши на значок «Живий ефір», користувач може поставити своє запитання, промовляючи його вголос. Якщо камера активована, можна показувати певні об’єкти, простори чи ситуації, подібно до Google Lens, але з плавнішою та природнішою взаємодією.
Цей абсолютно новий формат пошуку базується на Gemini 3.1 Flash Live, моделі Голосове та візуальне відтворення в режимі реального часу, яке обробляє те, що відбувається навколо користувача, і реагує зі швидкістю розмовиІдея полягає в тому, що взаємодія має бути більше схожою на розмову з людиною, ніж на поєднання традиційних текстових пошуків.
Google розглядає цей крок як частину свого переходу до більш розмовної пошукової системи, де «Режим штучного інтелекту» пошукової системи слугує шлюзом до відповідей, згенерованих розширеними моделямиУ цьому контексті Search Live – це додатковий рівень, який додає голос, камеру та безперервний діалог поверх самої пошукової системи.
Глобальне розгортання: понад 200 країн та зосередження уваги на Європі
Після першого анонсу на Google I/O минулого року та початкового етапу тестування в AI Mode Labs, Search Live дебютував у Сполучені Штати у вересніТепер Google підтвердив, що цей досвід розгортається у понад 200 країнах і територіях, де в Пошуку вже ввімкнено режим штучного інтелекту.
Це розгортання включає Іспанія та інші європейські ринкиКомпанія наголосила на підтримці кількох поширених мов у країні. Окрім іспанської, було підтверджено сумісність з каталонською, галісійською та баскською мовами, що відкриває можливості для голосової взаємодії в режимі реального часу цими мовами в межах одного й того ж пошуку.
Міжнародна експансія базується на характері багатомовний за своєю суттю Gemini 3.1 Flash LiveЗа даними Google, модель підтримує понад 90 мов для мультимодальних розмов у режимі реального часу, що спрощує пропонування однакового голосового та камерного досвіду в регіонах з високим лінгвістичним розмаїттям без необхідності розробляти окремі моделі для кожної мови.
З точки зору ринку, цей крок загострює конкуренцію за контроль над повсякденними інтерфейсами штучного інтелекту в Європі. Замість того, щоб обмежувати розвиток англомовними країнами або кількома іншими країнами, Google вирішує широко впроваджувати цю технологію там, де її частка на ринку є сильною. Режим штучного інтелекту у Finder тепер доступнийз особливою увагою до якості розпізнавання та відповіді кожною мовою.
Для пересічного європейського користувача практична різниця полягає в тому, що Пошук більше не обмежується лише введенням тексту в текстове поле і це дедалі більше перетворюється на розмову, в якій можна говорити, показувати зображення та отримувати відповіді, згенеровані штучним інтелектом, у режимі реального часу.
Gemini 3.1 Flash Live: менша затримка та природніший голос
Технічна суть цієї зміни полягає в Gemini 3.1 Flash Live, аудіо- та голосова модель, яку Google описує як найдосконалішу у своєму каталозі для взаємодії в реальному часі. Його мета — мінімізувати затримку та зробити відповіді природнішими, з каденцією та інтонацією, ближчими до людської мови.
У взаємодії в реальному часі кожна мілісекунда має значення. Google стверджує, що ця модель передбачає стрибок у швидкості, надійності та якості діалогуПорівняно з попередніми версіями, такими як 2.5 Flash Native Audio, Gemini 3.1 Flash Live зменшує помітну затримку між запитанням користувача та відповіддю системи, згладжуючи незручні паузи, які порушують хід розмови.
Окрім швидшої реакції, модель… точніше розпізнавання акустичних нюансів такі як тон, акцент і ритм голосуЦе дозволяє краще розрізняти, які частини звуку є релевантними (інструкції користувача), а які належать до фонового шуму (дорожній рух, телебачення, розмови поблизу), фільтруючи останні для збереження узгодженості взаємодії.
Згідно з даними, якими поділилась компанія, Gemini 3.1 Flash Live лідирує в таких тестах, як ComplexFuncBench Audio, де його оцінюють... багатокрокові виклики функцій з різними обмеженнямидосягаючи балів близько 90% у складних аудіосценаріях. Він також перевершує такі тести, як Audio MultiChallenge від Scale AI, коли активовано функцію «мислення», що свідчить про покращення у виконанні довгих інструкцій та міркуванні в розмовах з перервами та ваганнями.
Технічно кажучи, це модель, розроблена для підтримки довші, більш плавні та більш змістовні розмовинавіть коли людина змінює тему, вагається, переформульовує запитання або вводить ланцюгові запити, для виконання яких потрібно виконати кілька кроків.
Більш потужні голосові агенти для бізнесу та розробників
Окрім споживчого виміру, Gemini 3.1 Flash Live пропонується як центральний компонент для компаній та розробників для створення складних голосових агентівМодель доступна для попереднього перегляду через Gemini Live API в Google AI Studio, що дозволяє вам почати експериментувати з програмами для роботи з голосом та зображенням у режимі реального часу.
Для корпоративного середовища Google інтегрує цю модель у Gemini Enterprise для обслуговування клієнтівЇхня пропозиція щодо обслуговування клієнтів та масштабної автоматизації взаємодії. Ідея полягає в тому, що компанії можуть створювати асистентів, здатних вирішувати повноцінні завдання, а не просто відповідати на прості запитання, зберігаючи контекст протягом усієї розмови.
Серед покращень, які компанія виділяє для цих агентів, є: вищі показники виконання завдань у галасливому середовищіЦе стало можливим завдяки покращеній можливості активації зовнішніх інструментів та надання інформації, одночасно підтримуючи розмову з користувачем. На практиці це означає помічників, які можуть запитувати бази даних, виконувати дії або інтегрувати інші сервіси, не перериваючи розмову.
Іншим ключовим моментом є «краще виконання інструкцій» або краще відстеження складних інструкційМодель посилила свою здатність дотримуватися встановлених для неї правил та обмежень, завдяки чому агент залишається в межах своїх «захисних огорож», навіть коли розмова приймає неочікувані повороти або користувач намагається вирвати її з контексту.
Google також вказав на приклади використання, спрямованого на голосове програмування, інтерактивну технічну підтримку або внутрішніх помічників для співробітників, з метою… Голос стає життєздатним інтерфейсом для завдань, які зараз виконуються за допомогою тексту або традиційних панелейХоча компанія посилається на позитивні відгуки ділових партнерів, які вже протестували модель, вона не оприлюднила незалежні показники економічного впливу чи скорочення витрат.
Досвід роботи з Gemini Live: швидші відповіді та довший контекст
З точки зору кінцевого користувача, Gemini 3.1 Flash Live інтегрується безпосередньо в Gemini Live, розмовний досвід Google, доступний на мобільних пристрояхКомпанія стверджує, що з новою моделлю відповіді надходять швидше та з «меншою кількістю незручних пауз», які переривають потік.
Ще одна важлива зміна — це можливість слідкуйте за темою розмови вдвічі довше порівняно з попередньою моделлю. Це особливо корисно під час мозкових штурмів, пояснення складних концепцій або планування завдань, де запити, як правило, каскадуються, а втрата контексту різко знижує корисність помічника.
Gemini Live, що працює на базі Flash Live 3.1, також може динамічно налаштовуйте тривалість і висоту ваших відповідей Залежно від моменту: коротші відповіді на швидкі запитання, детальніші пояснення, коли користувач заглиблюється або потребує покрокового керівництва.
Ця адаптація тону полегшується кращим тональним розумінням моделі, яке вона тепер розпізнає точніше. емоції та нюанси, такі як розчарування, сумніви або розгубленістьУ контексті обслуговування клієнтів ця чутливість може перетворитися на більш емпатичні відповіді або додаткові роз'яснення без необхідності для користувача чітко вказувати, що він чогось не зрозумів.
Загалом, досвід показує, що Розмова з системою — це не стільки диктування команд, скільки спілкування зі співрозмовником, який розуміє контекст і адаптується до ситуації., хоча завжди в межах можливостей розмовної моделі штучного інтелекту.
Багатомовність та її значення для Іспанії та Європи
Одним із стовпів Gemini 3.1 Flash Live є його характер Багатомовний за замовчуванням, з підтримкою понад 90 мов у голосових та візуальних розмовах. Це не лише дозволяє Google розширити можливості Search Live та Gemini Live у більшій кількості країн, але й запропонувати більш узгоджений досвід у регіонах з кількома спільними офіційними мовами.
У випадку Іспанії компанія підтвердила підтримку Іспанська, каталонська, галісійська та баскська у рамках розгортання Search Live. Для користувача це означає можливість взаємодіяти з пошуковою системою, використовуючи свою повсякденну мову, без необхідності перемикатися на англійську чи іспанську, якщо він віддає перевагу іншому варіанту.
У Європі ця багатомовна здатність може стати відмінний фактор порівняно з іншими рішеннями голосового штучного інтелекту що надають пріоритет кільком мовам. Можливість вести довгі, контекстуальні розмови різними мовами сприяє впровадженню як споживачами, так і компаніями, що працюють на кількох ринках.
Крім того, оскільки це модель, яка поєднує аудіо та відео, враження не обмежуються розумінням того, що говорить користувач, але й що показує камераЦе відкриває такі сценарії, як відеотехнічна підтримка, запити щодо фізичних продуктів, допомога в режимі реального часу під час поїздки або пояснення друкованих документів, розміщених перед мобільним телефоном.
Ключовим буде те, як система адаптується до особливості кожної європейської мови та регіонуАкценти, розмовні вирази та різноманітні формальні та неформальні регістри – все це фактори, які слід враховувати. Google стверджує, що Gemini 3.1 Flash Live розроблений для обробки цих варіацій, хоча його фактична продуктивність буде перевірена, коли функція охопить більше користувачів.
Безпека, водяні знаки та боротьба з дезінформацією
Покращення природності голосу, згенерованого штучним інтелектом, також підвищує питання щодо безпеки, автентичності та потенційних зловживаньGoogle прагнув вирішити цю проблему, впровадивши SynthID, систему водяних знаків, що застосовується до аудіо, створеного Gemini 3.1 Flash Live.
Ці водяні знаки є непомітні для людського вуха, але виявляються за допомогою спеціальних інструментівЦе дозволяє ідентифікувати, коли штучний інтелект згенерував аудіофрагмент. Мета полягає в тому, щоб посилити відстеження контенту та полегшити роботу медіа-ресурсів, платформ та організацій, яким необхідно перевіряти походження записів.
Це рішення ухвалено на тлі зростаючого занепокоєння щодо Голосові дипфейки та крадіжка особистих данихЦе стосується політичних ситуацій, фінансового сектору та навіть телефонного шахрайства. Хоча водяний знак сам по собі не усуває ці ризики — наприклад, треті сторони можуть не використовувати моделі із SynthID або маніпулювати аудіо після цього — він вводить додатковий рівень відповідальності в проектування системи.
Google посилається на картку моделі Gemini 3.1 Flash Live для отримання детальної інформації. зосередитися на безпеці, зменшенні ризиків та відповідальному використанніСеред згаданих елементів – необхідність підтримки механізмів аудиту, контролю використання та чітких обмежень щодо контекстів, у яких модель може використовуватися.
Компанія усвідомлює, що, оскільки межа між людським голосом та синтетичним голосом розмивається, Довіра залежатиме не лише від якості аудіо, але й від можливості продемонструвати, коли його було згенеровано машиною.SynthID є одним із запропонованих рішень у цьому напрямку, хоча дебати щодо регулювання та спільних стандартів залишаються відкритими в Європі та решті світу.
З розгортанням Gemini 3.1 Flash Live та розширенням Search Live на Іспанію, Європу та понад 200 інших територій, Google намагається консолідувати екосистему, в якій Голос і камера стають поширеними способами доступу до штучного інтелектуУспіх цього починання залежатиме від того, чи обіцяний досвід — швидший, природніший, безпечніший та корисніший — буде підтверджено щоденним використанням користувачами, компаніями та розробниками, які зараз починають тестувати ці нові можливості.
