„Hiszem, ha látom” – szól a híres mondás, ami a következő lehet azon a listán, amit teljesen felülír a mesterséges intelligencia. Szakértők szerint az elképesztő tempójú fejlődés oda vezethet, hogy az emberek elidegenülnek a közösségi médiától.
2025 egyértelműen az áttörés éve a mesterséges intelligencia képalkotásában, csak úgy kapkodjuk a fejünket az újabb és újabb, realitás határát súroló modellekre. Eddig még úgy-ahogy meg lehetett állapítani a különböző képekről és videókról, hogy nem stimmel valami: most azonban ez a határ is elmosódni látszik.
Erre utaló ómen lehetett, hogy Gaál László az év elején olyan hiperrealisztikus autós reklámot készített szabadidejében a Google Deepmind Veo 2 szoftverével, hogy ősszel már a Toyota kereste meg egy valódi videós kampány legyártásával. Erről ebben a cikkünkben írtunk részletesen.
November végén érkezett meg a Google legújabb dobása, a Nano Banana Pro, amely bemutató videójában részletesebb, pontosabb és többnyelvű képkészítést ígért elődjéhez (a Nano Bananahoz) képest. A szoftverrel – amelynek hivatalos neve Gemini 3 Pro Image, a banános változat a köznyelvben használt – egyértelmű célja volt a techóriásnak, hogy az infografikák világát is meghódítsa. Az új MI-vel néhány másodperc alatt alakíthatunk át hosszú szövegeket könnyebben érthető, vizuális formába.
Két infografika, amelyet a Google friss MI-modellje készített betáplált információk alapján. Fotók: X / Nano Banana Pro (2 kép)
A szoftverben nagy szerepet kapott a többnyelvűség is, képes teljes képeket lefordítani, vagy más-más piacokra optimalizálni az infografikákat. A Nano Banana Pro-val készült képeken az ingyenes felhasználók esetében látható, az előfizetőknél láthatatlan vízjel látható – ezzel bebiztosítva, hogy fel lehessen ismerni, mi MI-generált, és mi nem.
A legnagyobb előrelépések azonban mégsem itt, hanem a képek realisztikusságában láthatóak.
Itt tartunk most
Múlt héten egy kávézóban ülő lányról készült kép kezdett virálisan terjedni a közösségi médiában. A Nano Banana Pro-val generált képet egy X-felhasználó posztolta ki oldalára néhány másik MI-szoftver próbálkozása mellett.
Nano Banana Pro (Fizetős) Fotó: X / Romain Hedouin
A szóban forgó kép, amit a Nano Banana Pro készített. Fotó: X / Romain Hedouin
A felhasználó ugyanazt a promptot (magyarul utasítás, vagyis az a parancs, ami alapján az MI elvégzi a kiszabott feladatot – a szerk.) táplálta be több, sokak által használt generatív modellbe. A teszthez Elon Musk Grok szoftverének legújabb változatát, a világelső, OpenAI által fejlesztett ChatGPT-t, valamint a Google ingyenes, sima Nano Banana szoftverét választotta.
Ugyanaz a prompt, három másik MI-modell. Balról-jobbra: Nano Banana (sima), Grok, ChatGPT. Végül az eredeti, Nano Banana Pro kép. Fotók: X / Romain Hedouin (4 kép)
A különbség szemmel látható. Gaál László szerint sok olyan, kívülről nem látható összetevő van, ami a realizmushoz vezethetett. „A fejlesztési folyamat kicsit olyan, mint a főzés: hiába van brutális költségvetésed az alapanyagokra (jelen esetben ez a számítási teljesítmény), az, hogy az ember hogyan készíti elő, majd készíti el az ételt, ugyanolyan, vagy még fontosabb” – írta megkeresésünkre.
Úgy látja, a Nano Banana Pro esetében mind az előzetes betanítás, mind az RLHF (Reinforcement Learning from Human Feedback – ez annyit tesz, hogy az MI az emberek visszajelzései alapján tanul döntéseket hozni – a szerk.) fázisban olyan emberek voltak a döntéshozók, akik a nagyon műanyagnak tűnő, plasztik képek helyett a realizmus mellett döntöttek.
Laci szerint a Google-nek több tekintetben is előnye van: például abban, hogy saját hardveren taníthatják modelljeiket: nincsenek az Nvidia-ra szorulva, mint más cégek.
MI-pillanatfelvételek
Fontos megjegyezni, hogy egy élethű kép legenerálásánál nem elég 2-3 szót megadni a szoftvernek, most még ott tartunk, hogy hosszú, optimalizált promptok után lehet hasonló hatást elérni. Az alábbi X-felhasználó realisztikus képeit egy közel háromezer karakteres, az utánozni kívánt kamera típusára és fénybeállításokra is kitérő utasítássorral érte el.
Ebben a galériában mutatunk még néhány példát, mivel kísérleteznek a közösségi médiában a júzerek.
További MI-képek, amelyeket a Nano Banana Pro generált. Fotók: X (4 kép)
Az amerikai Time magazin nemrég hosszú elemzést publikált arról, mit okozhat a közösségi médiában a mesterséges tartalmak elterjedése. A cikkben azt írják: fennállásuk legnagyobb veszélyhelyzetébe kerülhetnek a social platformok. A tömegesen beáramló MI-képek és videók elvehetik az emberek alapvető bizalmát, ha saját szemükkel nem tudják eldönteni, hogy amit látnak, valós-e.
Amellett, hogy a vízjel nélküli tartalmak miatt nő a hamis videókkal félrevezetés, manipuláció, vagy akár a csalás esélye, a képmegosztó oldalak elveszítik eredeti funkciójukat – az emberek összekötését.
Egyes szakértők úgy látják: ha a közösségi oldalak zajjal telnek meg, akkor elindulhat egy olyan folyamat, ahol az emberek hátrébb lépnek a közösségi médiától, és újra a valódi, offline kapcsolatokat keresik.