Останнім часом все частіше говорять про те, що агенти штучного інтелекту отримують команди та фактично виконують завдання, включаючи необхідні натискання та проведення по телефону. Ця розмова про створення агента штучного інтелекту дуже нагадує мені «нового Google Assistant», анонсованого з Pixel 4 у 2019 році.
На I/O 2019 Google представила цього помічника нового покоління. Гіпотеза полягала в тому, що обробка аудіо на пристрої призведе до того, що «натискання, щоб увімкнути телефон, буде майже млявим».
Google показав прості команди, які включали відкриття програм і керування ними, тоді як більш складна ідея полягала в тому, «як вбудований помічник пристрою може координувати завдання між програмами». Прикладом було отримання вхідного тексту, відповідь голосом, а потім з’явилася ідея знайти супровідне зображення та надіслати його. Можливість «запуску» та «багатозадачності» доповнюється можливістю «створення» природної мови Gmail.
Цей помічник наступного покоління дозволить вам миттєво керувати телефоном за допомогою голосу, виконувати багатозадачність у додатках і виконувати складні дії – і все це практично з нульовою затримкою.
Пізніше того ж року новий Асистент був запущений на Pixel 4 і став доступним на всіх наступних пристроях Google.
- «Зроби селфі». Потім скажіть «Поділитися цим з Раяном».
- У ланцюжку розмови скажіть «Відповісти, я вже в дорозі».
- «Знайдіть уроки йоги на YouTube». Потім скажіть: «Поділіться цим з мамою».
- «Покажи мені електронні листи від Мішель у Gmail».
- У відкритому додатку Google Фото скажіть «Покажи мені фотографії Нью-Йорка». Потім скажіть «ті, що в Центральному парку».
- Коли сайт рецептів відкрито в Chrome, ви можете сказати «Шукати шоколадно-горіхові кекси».
- У відкритому додатку для подорожей скажіть «Готелі в Парижі».
Це основна ідея агентів ШІ. Під час розмови Alphabet про прибутки минулого місяця Сундара Пічаї запитали про вплив генеративного ШІ на Assistant. Він сказав, що це дозволить Google Assistant «діяти як проксі з часом» і «вийти за рамки відповідей і стежити за користувачами».
відповідно до інформація Цього тижня OpenAI працює над проксі ChatGPT:
«Ці типи запитів спонукали б агента виконувати клацання, переміщення курсору, введення тексту та інші дії, які виконують люди під час роботи з різними програмами, за словами особи, знайомої з цим».
Крім того, є Large Action Model (LAM) Rabbit, який навчений взаємодіяти з існуючими мобільними та настільними інтерфейсами для виконання конкретного завдання.
Версія, представлена Google Assistant у 2019 році, здавалася дуже заздалегідь запрограмованою, вимагаючи від користувачів зобов’язуватися певних фраз, а не дозволяти людям говорити природно, а потім автоматично виділяти дію. У той час Google заявив, що Assistant «бездоганно працює з багатьма програмами» і що він «з часом продовжуватиме покращувати інтеграцію програм». Наскільки нам відомо, цього ніколи не траплялося, а деякі можливості, продемонстровані Google, більше не працюють через зміну програми. Справжній агент зможе адаптуватися, а не покладатися на встановлені умови.
Легко зрозуміти, як LLM може покращити це, оскільки дослідження Google минулого року продемонструвало роботу над «Увімкнення розмовної взаємодії з мобільним інтерфейсом користувача за допомогою великих мовних моделей“.
Дослідження Google показали, що їхній підхід здатний «швидко зрозуміти мету мобільного інтерфейсу користувача»:
Цікаво, що ми помітили, що студенти LLM використовували свої попередні знання, щоб зробити висновок про інформацію, яка не представлена в інтерфейсі користувача під час створення резюме. У наведеному нижче прикладі LLM дійшов висновку, що станції метро належать до системи лондонського метро, тоді як інтерфейс користувача для введення не містить цієї інформації.
Він також може відповідати на запитання щодо вмісту, який відображається в інтерфейсі користувача, і керувати ним після отримання інструкцій природною мовою.
Агент Gemini AI для вашого пристрою Android стане природним розвитком першої, ніколи раніше не відкритої спроби Google створити універсального помічника, який пропонує новий спосіб використання вашого телефону. Однак є такі функції, як копіювання відповіді на повідомлення та можливість сказати «надіслати» безпосередньо під час голосового введення в Gboard Assistant.
Попередні зусилля, здається, є результатом того, що Google запізнився з ідеєю та не мав необхідних технологій. Тепер, коли ми зайшли так далеко, Google буде мудро визначити пріоритетність цих зусиль, щоб вона могла почати лідирувати, а не наздоганяти.
FTC: ми використовуємо автоматичні партнерські посилання для отримання прибутку. більше.
“Загальний ніндзя в соціальних мережах. Інтроверт. Творець. Шанувальник телебачення. Підприємець, що отримує нагороди. Веб-ботанік. Сертифікований читач”