Az év végén a Google bemutatta várva várt Gemini 2.0 AI modelljét. Ez a következő generációs AI modellje, amely az intelligencia és képességek terén például gyorsabb adatfeldolgozást és fejlettebb problémamegoldó képességeket ígér.
A 2.0-s verzió az AI ügynökökre épül, amelyek önállóbban dolgoznak és komplex problémákat oldanak meg minimális emberi beavatkozással. Ezzel a Google az élre tör a legfejlettebb AI modellek piacán.
A Google Gemini 2.0 bemutatása
A Gemini 2.0 bevezetése alkalmából Sundar Pichai, a Google és az Alphabet vezérigazgatója az alábbit osztotta meg:
„Az információ az emberi fejlődés középpontjában áll. Ezért több mint 26 éve arra összpontosítunk, hogy rendszerezzük a világ információit, elérhetővé és használhatóvá tegyük azokat. Ezért folyamatosan feszegetjük a mesterséges intelligencia határait, hogy minden inputot rendszerezzünk, és bármilyen outputon keresztül elérhetővé tegyük azokat, hogy valóban hasznosak lehessenek neked. Ma már fejlesztők milliói dolgoznak a Geminivel, ami segít minket abban, hogy újratervezzük összes termékünket (beleértve azt a 7-et, amelynek 2 milliárd felhasználója van), és újakat hozzunk létre. Az elmúlt évben agilisabb modellek fejlesztésébe fektettünk, vagyis olyanokéba, amelyek jobban megértik a körülötted lévő világot, előre látnak és a felügyeleted alatt cselekednek. Ma örömmel jelentjük be az új korszak modelljeit, amelyeket erre az új ügynökökre épülő korszakra terveztünk: bemutatjuk a Gemini 2.0-t, eddigi legfejlettebb modellünket. Az új multimodalitások terén (mint a natív hang- és képkimenet) és a natív eszközök használatával történő fejlesztésekkel lehetőségünk nyílik új AI ügynökök létrehozására, amelyek közelebb visznek minket egy univerzális asszisztens víziójához”.
Ebben a videóban láthatod a modell új képességeinek összefoglalóját:
Gemini 2.0 Flash
A cég első modellje a Gemini 2.0 Flash, amely kisebb és kevésbé erős modell, bár még így is jobb, mint a jelenlegi Pro modell. Demis Hassabis, a Google DeepMind vezérigazgatója szerint ez a modell sokoldalúabb és fejlettebb, mint az előző modellek, és képes többnyelvű képek és hangok natív generálására:
„A Flash a legfontosabb tesztekben még az 1.5 Pro modellt is felülmúlja, kétszeres sebességgel, és új képességekkel érkezik. A multimodális inputok, mint a képek, videók és hangok támogatása mellett a Flash 2.0 mostantól multimodális outputokat is támogat, mint a natív képgenerálás szövegekkel keverve, valamint a szövegből szintetizált többnyelvű hangok (TTS). Továbbá natívan integrált eszközökkel, mint a Google Keresés vagy kód futtatás, illetve harmadik féltől származó, felhasználó által definiált funkciók.”
Ez a modell már elérhető kísérleti modellként a Gemini API-n keresztül, multimodális adatbevitellel és szöveges eredménnyel, natív szöveg-beszéd átalakítással és képgenerálással.
Új funkció: Flash Thinking
A Google bemutatta a Flash Thinking modellt, amely képes összetett kérdések megválaszolására úgy, hogy közben megmutatja gondolkodási folyamatát. Ez növeli a modell érvelési képességeit, és versenyre kel az OpenAI hasonló fejlesztéseivel. Ez a funkció segít abban, hogy a felhasználók jobban megértsék a döntéshozási folyamatokat.
Széleskörűen 2024 januárjától lesz elérhető, további modellekkel együtt.
AI ügynökök a Gemini 2.0-ban
A Gemini 2.0 legnagyobb újdonsága az AI ügynökökben rejlik. Mostantól tartalmaz natív felhasználói felületen belüli műveleteket, valamint más fejlesztéseket, mint a multimodális érvelés, hosszú kontextusok megértése, összetett utasítások nyomon követése és tervezése, összetett funkciók meghívása, natív eszközök használata és javított késletés.
Ezek az AI ügynökök nagy hatással lesznek a következő években az AI technológiákra, és a Google több prototípuson keresztül vizsgálja ezt a területet, amelyek segíthetnek az embereknek soha nem látott módon végrehajtani feladatokat.
Még mindig a fejlesztés korai szakaszában jár, de egy példa erre az frissített Project Astra, mely prototípus, az univerzális AI asszisztens jövőbeli lehetőségeit vizsgálja.
Továbbá a Project Mariner, az ember-ügynök interakció jövőjét kutatja, kezdve a böngészővel. Vagy ott van Jules, egy AI-alapú kódügynök, amely segít a fejlesztőknek a feladataikban, közvetlenül egy GitHub munkafolyamatba integrálva.
Astra projekt
Néhány hónappal ezelőtt a Google elindította ezt a projektet, amelyet a virtuális asszisztensek fejlődéseként mutattak be, és amely képes elemezni a környezetünket számos cselekvéshez, mint az elveszett tárgyak megtalálása vagy helyzetek leírása.
A Gemini 2.0 érkezésével az Astra projekt is fejlesztésre került:
Javított párbeszédek: Mostantól képes több nyelven társalogni, valamint jobban megérti az akcentusokat vagy kevésbé ismert szavakat.
Eszközök új használata: Mostantól használható keresőmotor, a Google Lens vagy a Google Maps is.
Fejlettebb memória: Akár 10 percig is megjegyzi az adott munkamenet alatt elhangzottakat, és személyre szabható módon emlékszik a korábbi beszélgetésekre is.
Csökkentett késletés: Az új streaming funkcióknak és a natív hangmegértésnek köszönhetően az AI ügynök képes az emberi beszélgetéshez hasonló késleltetéssel megérteni a nyelvet.
Mariner projekt
Amint azt fent röviden említettük, a Mariner projekt egy Gemini 2.0-ra épülő kutatási prototípus, amely az ember-ügynök interakció jövőjét vizsgálja.
Képes megérteni és érvelni böngészőképernyő-információk alapján, legyen az pixel, szöveg, kód, kép vagy forma, majd ezen információkat egy Chrome-bővítényen keresztül használja, hogy elvégezze a feladataidat.
Még mindig korai szakaszban van, de az eredmények ígéretesek.
A kihívás most az, hogy ezt biztonságosan és felelősségteljesen építsék fel, hogy csak az aktív böngészőfüllapon tudjon gépelni, görgetni vagy kattintani, valamint bizonyos érzékeny műveletek elvégzése előtt megkérje a felhasználó végleges megerősítését.
Ezekkel az előrelépésekkel a Google és a DeepMind hangsúlyozták, hogy az AI fejlesztés során különös figyelmet fordítanak az adatvédelemre és az etikai szempontokra, ezzel is biztosítva a technológia biztonságos és felelősségteljes alkalmazását. Fokozatos és feltáró megközelítést alkalmaznak, több prototípust tesztelnek, integrálják a biztonsági képzéseket, és külső szakértőkkel, valamint megbízható tesztelőkkel dolgoznak együtt. Az alapos kockázati és biztonsági értékelések biztosítják, hogy ezek az új AI modellek megfeleljenek a legmagasabb szintű biztonsági követelményeknek.
Kétségtelen, hogy a Gemini 2.0 és az új prototípusok egy új, intelligensebb és autonómabb AI modellgeneráció kapuját nyitják meg, amelyeket izgatottan várunk, hogy felfedezzünk.
Perger Tamás vagyok a Marketing Consulting alapítója és ügyvezetője.
14+ év szakmai tapasztalattal az online marketing területén.
Cégünk a Marketing Consulting Kft. többszörös Marketing Gyémánt Díjas ügynökség, a Magyar Marketing Szövetség büszke tagjai vagyunk, jómagam pedig a Magyar Marketing Szövetség egyik hazai nagykövete.
Munkatársaink folyamatosan a legfrissebb szaktudással rendelkeznek Google és Meta hirdetések tekintetében, melyet szakvizsgáink bizonyítanak.
Ügyfeleink hirdetéseinek optimalizálását folyamatosan magas szinten tartjuk, ezért a minősített, hivatalos Google Partner státuszt is kiérdemeltük.
Weboldalak és webshopok tucatjainak segítünk jelenleg is láthatóvá válni, éppen ezért a hazai Shoprenter és UNAS is kiemelt szakértőként ajánl minket, mint marketing szolgáltatót.