AI selhává ve společenském testu: Umělá inteligence nerozumí lidskému chování, varuje studie

Článek

Když nestačí jen poznat obličej: AI nerozumí sociálním situacím

Vědci z Johns Hopkins University přišli s důležitým zjištěním: umělá inteligence selhává tam, kde lidé excelují – ve schopnosti pochopit sociální interakce v pohyblivých scénách. To je zásadní problém pro technologie jako autonomní vozidla, pečovatelské roboty nebo jakýkoliv systém, který má fungovat v lidském prostředí.

Závěry studie, které byly prezentovány na konferenci International Conference on Learning Representations (ICLR), ukazují, že ačkoliv jsou dnešní AI modely schopné s vysokou přesností rozpoznat objekty na fotografiích, při zpracování krátkých videí s lidmi naprosto selhávají v pochopení kontextu a společenské dynamiky.

Lidé vs. stroje: kdo rozumí scéně lépe?

Tým vedený profesorkou Leylou Isik a doktorandkou Kathy Garciou nechal lidi i více než 350 AI modelů hodnotit krátké třívteřinové videoklipy. Tyto klipy ukazovaly lidi při různých činnostech – samostatně, vedle sebe nebo v interakci. Účastníci hodnotili důležité aspekty pro pochopení společenských interakcí na stupnici od 1 do 5.

Výsledek? Lidé se na hodnocení dokázali relativně shodnout. AI modely nikoliv. Ať už šlo o jazykové modely typu GPT, video modely nebo modely pro rozpoznávání obrázků, žádný z nich nedokázal přesně předpovědět, jak by lidé scénu popsali nebo jak by na ni reagoval lidský mozek.

Video a jazyk – každý jinak špatně

Zatímco video modely selhávaly v pochopení dění ve scénách, jazykové modely měly o něco lepší výsledky v odhadu lidského chování. Ani jeden typ ale nedosáhl úrovně lidské schopnosti porozumění. Ani když měly AI systémy k dispozici popisy nebo série snímků ze záznamu.

„Nestačí jen vidět obrázek a rozpoznat tváře nebo objekty. Skutečný svět je dynamický a AI musí být schopná pochopit děj, který se odehrává. Tato studie naznačuje, že právě to dnešním modelům chybí,“ uvedla Garcia.

Proč AI stále nechápe, co se děje?

Autoři studie upozorňují na zásadní problém: většina dnešních AI modelů je postavena podle principů zrakové kůry mozku, která zpracovává statické obrazy. Porozumění dynamickým scénám však vyžaduje jinou část mozku – tu, která analyzuje pohyb, úmysly, vztahy a kontext.

„Existuje hluboký rozdíl v tom, jak lidé vnímají scénu jako celek – nejen co vidí, ale co očekávají, že se stane. A právě to AI zatím neumí napodobit,“ vysvětluje profesorka Isik.

Proč na tom záleží?

Uvědomění si této slabiny je důležité nejen pro vývoj AI obecně, ale především pro technologie, které spoléhají na interakci s lidmi. Autonomní auto musí poznat, jestli člověk přechází ulici nebo jen postává. Pečovatelský robot musí chápat, jestli člověk potřebuje pomoc, nebo jen mluví se sousedem. A v obou případech rozhodují vteřiny – a kontext.

Kam se AI musí posunout?

Výzkum naznačuje, že posun ke skutečně „sociální“ umělé inteligenci bude vyžadovat zcela nové přístupy – nejen větší objemy dat, ale nové architektury, které se více přiblíží lidskému vnímání. AI bude muset chápat nejen „co se děje“, ale „proč se to děje“ a „co se stane dál“.

Studie Johns Hopkins University přináší důležité varování – umělá inteligence, jakkoli působivá v některých oblastech, stále postrádá základní schopnost lidského vnímání: porozumění druhým lidem v reálném čase. Bez toho nemůže být bezpečně začleněna do našich každodenních životů. Budoucnost AI bude muset být více lidská – nebo aspoň více empatická.

Zdroj: Scitechdaily.com (odkaz), jhu.edu (odkaz), wsj.com (odkaz)

Další články