Google Gemini: Minden, amit eddig tudunk

Cikk megosztása!

Mi az a Google Gemini? A Gemini várhatóan a valaha épített legerősebb mesterséges intelligencia lesz. Kifinomult multimodális képességekkel rendelkezik, elsajátítja az emberi stílusú beszélgetéseket, a nyelvet és a tartalmat, megérti és értelmezi a képeket, szaporán és hatékonyan kódol, adatokat és elemzéseket hajt végre, és a fejlesztők új AI-alkalmazások és API-k létrehozására használhatják majd. A közeljövőben a Gemini várhatóan erősebb lesz, mint a Google bármely más terméke vagy szolgáltatása.

Az elmúlt évben a mesterséges intelligencia (AI) háborúja az OpenAI, a Microsoft, a Google és mások között felpörgette a bomlasztó mezőnyt, mindegyik fej-fej mellett verseng, és új és erősebb modelleket ad ki, hiszen mindenki egyre inkább úgy gondolja, ez a jövő. Bár ez a versengés jól jön minden marketing ügynökség számára, hiszen hónapról hónapra kapjuk az egyre jobban hasznosítható eszközöket a munkánkhoz.

Bár a Google nem volt az első a mesterséges intelligencia színterén, most a Geminivel kíván a csúcsra emelkedni –ami a feltételezések szerint a valaha létezett legerősebb AI-modell.

A Gemini 2023. december 6-án, szerdán indult útjára, így most meglátjuk, hogyan alakul a verseny a mesterséges intelligencia piacán.

Hogyan működik a Gemini, milyen erős, és mire lesz képes – ez minden, amit ma jelenleg tudunk róla.

Google Gemini: Multimodális a kezdetektől

Kezdettől fogva, amikor a Geminit május 10-én, a Google I/O fejlesztői konferenciáján maga Sundar Pichai vezérigazgató bejelentette, egy dolog világossá vált: a Google egy következő generációs mesterséges intelligenciát épít. A Google Brain Team és DeepMind csapatai által vezetett projekt a PaLM 2-re épül.

A PaLM 2 vagy a Pathways Language Model 2 az az alapvető technológia, amelyet a Google az AI-képességek fejlesztésére használ termékcsomagjában. Ide tartoznak a Google Cloud-termékek és -szolgáltatások, a Gmail, a Google Workspace, a hardvereszközök, például a Pixel okostelefon vagy a Nest termosztát, és természetesen a híres AI chatbot, a Google Bard.

Akkoriban a Gemini még teljes fejlesztési és képzési módban volt, de Pichai elárulta, mitől lesz más az új AI.

A Gemini túlmutat a multimodális AI-n

„A Gemini az alapoktól kezdve multimodálisnak lett teremtve.”

Ez volt Pichai kulcsmondata, és ha van egy szó, ami leírja a Geminit, az kétségtelenül a „multimodális”. Míg a Google számára sokan összekeverik a multimodális mesterséges intelligenciát bármely olyan AI-val, amely különböző tartalommal, például képekkel vagy szöveggel tud dolgozni, a kifejezés sokkal többet jelent.

Nemrég, október 24-én, Pichai nyilvánvaló jeleket adott arról, hogy milyen típusú multimodális mesterséges intelligenciát építenek.

„Igazán lefektetjük a modellek következő generációs sorozatának alapjait, amelyeket 2024-ben fogunk piacra dobni” – mondta Pichai.
„Az innováció üteme rendkívül lenyűgöző.”

A Gemini egy emberibb mesterséges intelligencia

Így vagy úgy, már tanúi lehettünk a multimodális AI-nak. Az olyan cégek, mint az OpenAI – a ChatGPT-ért felelős cég – vagy a Microsoft, különböző generatív mesterséges intelligencia-technológiákat kínálnak, amelyek képesek dolgozni képekkel, szövegekkel, adatokkal, sőt kóddal is. Mindezek a korai mesterséges intelligencia rendszerek azonban csak a multimodális technológia felszínét kapargatják, mivel a különböző tartalmak és adatformátumok integrálása nem hatékony.

A generatív mesterséges intelligencia ilyen vad sikere az oka annak, hogy egy gép most először képes utánozni az emberek tevékenységét. De mit tehetnek pontosan az emberek? Nemcsak chatelhetünk, kódolhatunk, jelentéseket írhatunk és képeket készíthetünk.

Az emberi agy zseniálisan összetett. Egyidejűleg képes értelmezni és megérteni a különböző adatformátumokat, beleértve a szöveget, szavakat, hangokat és látványelemeket. Ez lehetővé teszi számunkra, hogy megértsük a körülöttünk lévő világot, reagáljunk az ingerekre, és kreatív, innovatív módon oldjuk meg a problémákat. Ez az, amiről a Google Gemini szól. Egy új mesterséges intelligencia, amely közelebb áll ahhoz, amit az emberek valójában csinálnak: egy többfeladatos multimodális AI.

A Gemini nem egy modell, hanem sok mesterséges intelligencia kombinációja

Egy elegáns és hatékony multimodális mesterséges intelligencia létrehozásának egyetlen módja van. Ez a különböző mesterséges intelligencia modellek egyesítését jelenti. A gépi tanulási és mesterséges intelligenciamodelleket, például a grafikonfeldolgozást, a számítógépes látást, a hangfeldolgozást, a nyelvi modelleket, a kódolást és programozást, valamint a 3D modelleket integrálni és hangszerelni kell, hogy szinergiát érjünk el a multimodális AI fejlesztése során.

Ez egy hatalmas, kihívásokkal teli feladat, és a Google új, soha nem látott szintre szeretné emelni ezt a koncepciót.

Felszabadítva a fejlesztők számára

Egy másik nagy különbség a Gemini és más modellek, például a ChatGPT vagy a Bing Chat között, hogy a fejlesztők jelenleg korlátozott hozzáférést kapnak a technológiához.

De a kapun kívül A Gemini megtöri ezt a trendet.

Pichai hozzátette, hogy a Gemini „nagyon hatékony eszközökkel és API-integrációkkal rendelkezik”

Ez azt jelenti, hogy a Google nem csak egy új mesterséges intelligencia kidolgozásán dolgozik, hogy az egy internetes cirkuszi show legyen, hanem a Gemini könnyű és hatékony verzióit is készíti, amelyek segítségével a fejlesztők használhatják és testreszabhatják saját AI-alkalmazásaikat és API-jaikat.

Bemutatkozik a Gemini

Írta: Demis Hassabis, a Google DeepMind vezérigazgatója és társalapítója, a Gemini csapata nevében

Az AI állt életem munkájának középpontjában, akárcsak sok kutatótársam munkájának középpontjában is. Amióta tinédzser koromban mesterséges intelligenciát programoztam számítógépes játékokhoz, és idegtudományi kutatóként igyekszem megérteni az agy működését, mindig is hittem, hogy ha intelligensebb gépeket tudunk építeni, akkor hihetetlenül hasznosíthatjuk őket az emberiség javára.

Ez az ígéret a mesterséges intelligencia által felelősen felruházott világról továbbra is vezérli a Google DeepMindnél végzett munkánkat. Régóta szerettük volna felépíteni a mesterséges intelligencia modellek új generációját, amelyet az ihletett, ahogyan az emberek megértik a világot és interakcióba lépnek vele. A mesterséges intelligencia kevésbé tűnik intelligens szoftvernek, inkább valami hasznosnak és intuitívnak – szakértő segítőnek vagy asszisztensnek.

Ma egy lépéssel közelebb kerültünk ehhez a vízióhoz, amikor bemutatjuk a Geminit, a valaha épített legerősebb és legáltalánosabb modellt.

A Gemini a Google csapatai, köztük a Google Research munkatársai által végzett nagyszabású együttműködés eredménye. Az alapoktól kezdve multimodálisra épült, ami azt jelenti, hogy képes általánosítani és zökkenőmentesen megérteni, kezelni és kombinálni a különböző típusú információkat, beleértve a szöveget, kódot, hangot, képet és videót.

A Gemini az eddigi legrugalmasabb modellünk is – az adatközpontoktól a mobileszközökig mindenen hatékonyan képes futni. Korszerű képességei jelentősen javítják a fejlesztők és a vállalati ügyfelek AI-val történő építkezési és méretezési módját.

A Gemini 1.0-t, első verziónkat három különböző méretre optimalizáltuk:

Gemini Ultra – a legnagyobb és legmegfelelőbb modellünk rendkívül összetett feladatokhoz.

Gemini Pro – a legjobb modellünk a feladatok széles skálájának skálázásához.

Gemini Nano – a leghatékonyabb modellünk az eszközön végzett feladatokhoz.

Egy mesterséges intelligencia a mesterséges intelligencia építéséhez

Szeptember közepén felröppent a hír, hogy a Google hozzáférést adott a felhasználóknak a Gemini egy korai verziójához. Természetesen, ahogy az várható volt, a Gemini első kiszivárogtatása megtörtént.

Október 15-én a Javascript mérnöke, Bedros Pamboukian sokkolta a világot az első képernyőképekkel arról, ami a Makersuite-ba integrált Gemininek tűnt. A 2023 elején kiadott és a PaLM 2 által hajtott Google MakerSuite szoftvert a fejlesztők AI-alkalmazások létrehozására használhatják.

A MakerSuite alapvetően egy mesterséges intelligencia létrehozására szolgál. Egyszerű felhasználói felülettel rendelkezik, ahol a fejlesztők kódgeneráló eszközöket, természetes nyelvi feldolgozó (NLP) alkalmazásokat stb. hozhatnak létre.

Pamboukian – az első, aki kiszivárogtatta a Gemini integrációját a MarketSuite-ba – felfedte a Gemini multimodális képességeinek csúcsát. A kiszivárogtatás azt mutatja, hogy a Gemini már rendelkezik szöveg- és objektumfelismerési képességekkel, és képes feliratozni és megérteni a szabad szöveget képekkel kombináló promptokat.

A Gemini erősebb, mint a ChatGPT?

A Gemini és a ChatGPT összehasonlításakor sok szakértő beszél a paraméterekről. Az AI-rendszer paraméterei azok a változók, amelyek értékeit a betanítási szakaszban módosítják vagy hangolják, és amelyeket az AI a bemeneti adatok kimenetté alakítására használ. Nagy vonalakban, minél több paraméterrel rendelkezik egy MI, annál kifinomultabb.

A ChatGPT 4.0, a legfejlettebb működő mesterséges intelligencia, 1,75 billió paraméterrel rendelkezik. Ezzel szemben a Gemini a jelentések szerint meghaladja ezt a számot – a jelentések szerint 30 billió vagy akár 65 billió paraméterrel fog rendelkezni.

Egy mesterséges intelligencia rendszer ereje azonban nem csak a nagy paraméterszámokban rejlik.

A SemiAnalysis tanulmánya arról biztosít bennünket, hogy a Gemini „összetöri” a ChatGPT 4.0-t. A SemiAnalysis arra számít, hogy 2023 végére a Gemini ötszörösére lépheti túl a ChatGPT 4.0-t, ami potenciálisan 20-szor erősebb, ez szinte teljesen átírja majd a keresőoptimalizálás jövőjét is.

Gemini, chipek és képzési adatok

Az AI-modell mögötti koncepció is releváns.

Noha, mint már említettük, a ChatGPT multimodális kapacitása még mindig minimális – nyelvvel és kóddal működik, de képekkel nem –, a Gemini mindezt kombinálni fogja.

„A Google Gemini multimodális, vagyis képes szöveget, képeket és egyéb adattípusokat feldolgozni és generálni. Ez sokoldalúbbá teszi, mint a ChatGPT, amely csak szöveg feldolgozására képes” – áll a SemiAnalysis jelentésében.

A SemiAnalysis hozzátette, hogy a Google „példátlan számítási teljesítményt fektetett be” a Gemini képzésébe, meghaladva a GPT-4-et. A Gemini képzéséhez a Google a legmodernebb, TPUv5 néven ismert edzőchipeket használ. A jelentések szerint ezek a chipek az egyetlen olyan technológiával rendelkeznek a világon, amely képes 16 384 chip együttes működésére. Ezek a szuper chipek jelentik a titkot, amely lehetővé teszi a Google számára, hogy egy ilyen hatalmas modellt képezzen ki.

A SemiAnalysis azt mondja:

„Jelenleg a területen egyetlen más szervezet sem rendelkezik olyan kapacitással, hogy ilyen képzési törekvéseket vállaljon.”

Az AI-modell képzése azonban nem csak chipekről, hanem adatokról is szól. Ami pedig az adatokat illeti, a Google az egyik uralkodó. „A Google kiterjedt, csak kódot tartalmazó adatok gyűjteményével rendelkezik, becslések szerint körülbelül 40 billió token, ezt a tényt ellenőrizték is” – tette hozzá a SemiAnalysis.

A 40 billió token több száz petabájtnak vagy több millió könyv tartalmának felel meg. A SemiAnalysis szerint a Google adatkészlete önmagában négyszer nagyobb, mint a ChatGPT 4.0 betanításához használt adatok összessége, amely kódos és nem kódos adatokat is tartalmaz.

A lényeg: A Google végjátéka a Gemini számára

Ahogy a PaLM 2 hajtja a Google márkáját, a Gemini várhatóan ugyanezt fogja tenni a mesterséges intelligencia terén is. A Google ápolja a Geminit, és azt várja, hogy az növekedjen, hogy a Google minden termékébe és szolgáltatásába beágyazott és integrált mesterséges intelligencia gerincévé váljon.

Milyen végtermékeket és szolgáltatásokat fogunk látni a Gemini által működtetve? Ha leváltja a PaLM 2-t, a Gemini mindent ellát majd, a Térképtől a Dokumentumokig és a Fordítóig, az összes Google Workplace- és Cloud-környezetet és -szolgáltatást, valamint szoftvereket, hardvert és új termékeket.

A Google teljes mértékben elkötelezett amellett, hogy egy erősebb, sokoldalúbb és környezettudatosabb mesterséges intelligenciát építsen, amely képes megérteni a világot, és új és példátlan módon képes együttműködni vele.

A programozók a Gemini segítségével kódolják, automatizálják és javítják a felhő- és peremműveleteket, növelik az eladásokat, és beépülnek chatbotokba és virtuális asszisztensekbe Google okostelefonokon, alkalmazásokban, API-kban és még sok minden másban.

Úgy tűnik 2024 valóban az „Ikrek” éve lehet.

Perger Tamás vagyok a Marketing Consulting alapítója és ügyvezetője. 13+ év szakmai tapasztalattal az online marketing területén. Cégünk a Marketing Consulting Kft. Marketing Gyémánt Díjas ügynökség, a Magyar Marketing Szövetség büszke tagjai vagyunk, jómagam pedig a Magyar Marketing Szövetség egyik hazai nagykövete. Munkatársaink folyamatosan a legfrissebb szaktudással rendelkeznek Google hirdetések tekintetében, melyet szakvizsgáink bizonyítanak. Ügyfeleink hirdetéseinek optimalizálását folyamatosan magas szinten tartjuk, ezért a minősített, hivatalos Google Partner státuszt is kiérdemeltük. Weboldalak és webshopok tucatjainak segítünk jelenleg is láthatóvá válni, éppen ezért a hazai Shoprenter is kiemelt szakértőként ajánl minket, mint marketing szolgáltatót.