Trendency Online Zrt. | Szakterületek

Rajta tartjuk a kezünket a szakma ütőerén

Havonta tartott belsős workshopok során feldolgozzuk az adott hónap eseményeit és új cikkeit, így mindig tisztában vagyunk azzal, hol tart az ipar és hozzá képest mi magunk.

Ha értesülni szeretnél hasonló tartalmakról, akkor iratkozz fel hírlevelünkre, vagy írj nekünk itt.

Példa az általunk vizsgált témák rövid összefoglalóiból és az általunk készített anyagokból:

Mesterséges intelligencia és fenntarthatóság: Oxigénhiány a csúcs felé vezető úton

A médiát gyakorta a mesterséges általános intelligencia ígérete dominálja: az arról való diskurzus, hogy mi mindenre lesz, vagy legalábbis lehet képes egy-egy csúcsmodell a jövőben. Csak spekulálni lehet, hogy egyszer valóban megalapozottnak bizonyulnak-e majd ezek a remények, de azt már most látjuk, hogy a fejlesztés költségei óriásiak, amelyek fényében a trend töretlensége is megkérdőjelezhető.

A cikk itt olvasható: MI és fenntarthatóság.

Segment Anything - de tényleg bármit?

Az NLP területén a foundation modellek virágkorát éljük, a számítógépes látás (computer vision) szintén folyamatos fejlődésben van, azonban van egy részterülete, a képszegmentálás, amely ezekhez képest lemaradásban van. A képszegmentálás alapvető feladat a gépi látásban, de a jelenlegi szegmentációs modellek általában egy specifikus feladatra, adathalmazra vannak betanítva; nincs egy általános, jól működő modell erre a feladatra. A SAM alkotói ezzel a problémával akartak megküzdeni, és a megoldás első lépéseként három kérdést tettek fel:

A SAM alkotói ezzel a problémával akartak megküzdeni, és a megoldás első lépéseként három kérdést tettek fel:

1. Milyen feladat teszi lehetővé a zero-shot általánosítást?

2. Mi a hozzá tartozó modellarchitektúra?

3. Milyen adatok szükségesek a feladathoz és a modellhez?

A feladat a promptable segmentation nevet kapta. Ebben inputként meg lehet adni egy pontot vagy dobozt a képen, konkrét maszkot, sőt akár szabad szöveget is; a cél pedig az, hogy az input alapján a modell kiszegmentálja (maszkolja) a megfelelő képrészletet. Az input nem mindig egyértelmű (például ha egy pólóra teszel egy pontot, az utalhat magára a pólóra, de akár az azt viselő emberre is), ezért a modell egy bemenetre három lehetséges maszkot generál.

A SAM architektúrája három fő komponensből áll:

Image Encoder – az inputképet dolgozza fel; ez a lassabban futó része a modellnek, de egy képnél elég csak egyszer elvégezni, és utána több szegmentációs feladat is futtatható rajta.

Prompt Encoder – kezeli a különböző bemeneti jeleket: pont, doboz, szöveg.

Mask Decoder – a már feldolgozott inputokat (kép + prompt) dolgozza fel, és visszaadja a három lehetséges maszkot; gyorsan működik.

A SAM-projekt részeként létrejött egy új adathalmaz is, az SA-1B, amely 11 millió képet és 1,1 milliárd maszkot tartalmaz. Az adathalmazt három lépésben hozták létre:

Modell által támogatott kézi annotációs szakasz. Félautomatikus szakasz, amely ötvözi a modell által javasolt maszkokat és az annotátor munkáját. Teljesen automatikus szakasz, amelyben a modell már annotátori beavatkozás nélkül generál maszkokat

A maszkok 99%-a teljesen automatikusan lett generálva, azaz a harmadik szakasz eredményei.

A SAM-et számos konkrét feladaton is kipróbálták – például egyetlen pontból indított szegmentálás, éldetektálás, objektumjavaslatok készítése, példányszegmentálás vagy szövegből maszk generálása. Néhány esetben kisebb utófeldolgozásra, illetve az utolsó feladatnál további tanításra is szükség volt, hogy jobban illeszkedjen az adott problémához. Összességében a modell mindenhol meggyőzően szerepelt, bár nem minden teszten sikerült az első helyet megszereznie.

Átfogóan nézve a SAM remekül teljesít, de nem minden bajra orvosság. Használata gyors és egyszerű -bár igényelhet utófeldolgozási lépéseket- azonban bizonyos esetekben érdemes lehet testreszabottabb modelleket vagy megoldásokat alkalmazni.

Forrás: https://arxiv.org/abs/2304.02643

Prompt routing

A prompt routing technikák célja, hogy a felhasználói kérdéseket vagy promptokat automatikusan a legmegfelelőbb feldolgozási útvonalhoz vagy modellhez irányítsák. Ez különösen fontos olyan rendszerekben, ahol többféle nyelvi modell, adatforrás vagy logikai komponens áll rendelkezésre, és ezek közül a hatékony működés érdekében dinamikusan kell választani. A prompt routing lehetővé teszi a jobb válaszminőséget, alacsonyabb költséget és gyorsabb válaszidőt, hiszen optimalizálja a rendszer erőforrás-használatát.

Számos prompt routing technika létezik. Az egyszerű szabályalapú routing manuálisan definiált feltételeken alapszik (pl. ha a prompt tartalmaz egy kulcsszót, akkor irányítsuk adott modellhez). A gépi tanulásos klasszifikáció modellek képesek megtanulni, hogyan osztályozzanak promptokat különböző kategóriákba. Az LLM-alapú routing során egy nagy nyelvi modell maga dönti el, hogy mi a legjobb feldolgozási útvonal. Az embedding-alapú routing a prompt jelentését vektoros térben elemzi, és a hasonlóság alapján irányítja a kérést. Léteznek pipeline rendszerek, ahol több lépéses feldolgozás történik (pl. előszűrés, utófeldolgozás), valamint hibrid modellek, melyek több módszert kombinálnak.

Speciális routing technikák is elérhetők. Az ún. RAG (Retrieval-Augmented Generation) esetén a rendszer először dokumentumokat keres egy tudásbázisból, majd ezek alapján generál választ. A felhasználói viselkedés alapú routing pedig a felhasználó korábbi interakciói, preferenciái vagy kontextusa alapján dönt arról, hogyan történjen a feldolgozás. Az ilyen fejlett technikák kulcsszerepet játszanak a skálázható, testreszabott és hatékony LLM-alapú rendszerek működésében.

Forrás: https://gradientflow.com/llm-routers-unpacked/

https://www.arxiv.org/pdf/2502.00409v2

ATLAS, megoldás a hosszú kontextusokra

A mai nagy nyelvi modellek, mint a GPT vagy a Gemini modellek, lenyűgözően sok szöveget tudnak feldolgozni, de van egy nagy korlátjuk: a kontextusablak mérete. Ez határozza meg, hogy mennyi szöveget képesek egyszerre „észben tartani”. Bár a legújabb rendszerek már több százezer vagy akár pár millió tokent kezelnek, ahogy nő a hossz, a teljesítményük gyorsan romlik. Ennek oka, hogy a Transformer-architektúra minden egyes szót minden másikkal összehasonlít, és így a számítási igény négyzetesen nő a szöveg hosszával.

Sok kutató próbált ezen enyhíteni. Az „ablakos” és a „ritkított” attention például csak a közeli vagy bizonyos kiválasztott szavakat veszi figyelembe, míg a megújult RNN-ek és az úgynevezett State Space Modellek egészen más elven működnek, lépésről lépésre frissítve egy belső állapotot. Ezek mind javítanak a hatékonyságon, de igazán hosszú, több milliós kontextusokra még nem volt jó megoldás.

Ezen változtat az ATLAS, amelyet a Google kutatói mutattak be 2025-ben. Az ATLAS egy új család, a Deep Transformers első képviselője, és legnagyobb újdonsága egy memóriamodul, amely nemcsak tanítás közben, hanem futás közben is képes tanulni. Amikor egy új token érkezik, a modell megpróbálja előre jelezni, milyen információ tartozik hozzá, és ha téved, azonnal javítja a memóriáját. Így folyamatosan alkalmazkodik az adott szöveghez, miközben az alaphálózat változatlan marad.

Az eredmények látványosak: a BABILong tesztben az ATLAS tízmillió tokenes szövegek mellett is 80%-os pontosságot ért el, míg a korábbi modellek ennél jóval rosszabbul teljesítettek. Ez óriási előrelépés, hiszen eddig legfeljebb kétmillió token körül húzódott a határ. Bár az ATLAS még viszonylag kicsi modellméretben készült, és nyitott kérdés, hogyan működik majd több tízmilliárd paraméterrel, már most látszik, hogy új korszakot nyithat.

Az ATLAS lényege, hogy a nyelvi modellek ne csak egyszerre nézzenek vissza sok szóra, hanem valóban tanuljanak és emlékezzenek is az adott feladat közben. Ez pedig lehetőséget adhat olyan alkalmazásokra, mint teljes könyvek vagy hatalmas kódprojektek feldolgozása, sőt, akár többórás videók értelmezése is.

Forrás: https://arxiv.org/abs/2505.23735

Forrás: https://medium.com/@saimudhiganti/introducing-deeptransformers-atlas-64d8b96d5e90

AI hatása szoftverfejlesztés sebességére

A szakértők és a fejlesztők véleménye egybevág azzal kapcsolatban, hogy az LLM-ek (Large Language Model - nagy nyelvi modell, pl. ChatGPT) használata meggyorsítja a szoftverfejlesztési folyamatokat. Erre cáfol rá METR dolgozói által végzett kutatás, ahol 16 veterán szoftverfejlesztőnek adtak ki 246 különböző, való életből vett feladatot olyan projekteken, amelyeken átlagosan 5 évet dolgoztak korábban (azaz ismerték a kódbázist). A feladataik előtt a korábban LLM-et nem használó résztvevők megismerkedtek a Cursor nevű eszközzel egy tréning során. A feladataiknál véletlenszerűen lett eldöntve, hogy használhatnak-e LLM-et, vagy sem.

A feladatok előtt és után is meg kellett becsülniük, hogy mennyivel lesznek lassabbak vagy gyorsabbak AI használatával, és ugyanezt a kérdést szakértőknek is feltették. Mindenki azt jósolta, hogy az LLM-ek használata gyorsítani fog a feladatok megoldásán, de a valóságban nem ez történt.

A mérések azt mutatták, hogy a fejlesztők átlagosan 19%-al lassabban végeztek a feladataikkal, ha használhattak LLM-et. Ennek különböző okai lehettek, többek között az, hogy az LLM-ek nehezen látnak át nagy projekteket, az általuk generált kód megbízhatatlan, és a válaszok generálása is nem elhanyagolható időt vesz igénybe.

Ezek az eredmények nem azt jelentik, hogy az LLM-ek nem gyorsíthatnak a szoftverfejlesztők feladatainak megoldásán, csupán annyit, hogy vannak körülmények (nagy kódbázis, szenior fejlesztők), ahol a hatásuk nem egyértelműen pozitív.

Részletek: https://arxiv.org/pdf/2507.09089

A CNN-ektől a Vision Transformerekig: két út a képfeldolgozásban

A konvolúciós neurális hálók (CNN-ek) forradalmasították a számítógépes látást azzal, hogy rétegről rétegre tanították a modelleket a minták felismerésére – az élektől a teljes objektumokig. Hatékonyságuk és kisebb adathalmazokon való jó teljesítményük miatt máig alapjai az osztályozásnak, detektálásnak és szegmentálásnak.

A Vision Transformerek (ViT-ek) ezzel szemben új nézőpontot hoztak: a képet kisebb foltokra bontják, majd figyelmi mechanizmuson keresztül minden folt kapcsolatba léphet a többivel. Ez már kezdetektől globális rálátást biztosít, és elegendő adat és számítási kapacitás mellett rendkívül erős teljesítményt nyújt. Ennek köszönhetően áttöréseket hoztak a detektálásban, szegmentálásban és a multimodális modellekben (például CLIP, Stable Diffusion).

A CNN-ek és ViT-ek architektúrája jól mutatja az eltéréseket: a CNN-ek a lokális részletek és a hatékonyság mesterei, míg a ViT-ek a globális összefüggésekben erősek. A kettő együtt formálja a jövőt a képfeldolgozásban, az orvosi képalkotástól kezdve a műholdképeken át egészen a kreatív AI-eszközökig.

Tanulság: a CNN-ek a lokális struktúrák szakértői, a ViT-ek a globális kontextus mesterei – és együtt hajtják előre a látás alapú mesterséges intelligencia fejlődését.

CNN egyszerűen: https://ravjot03.medium.com/decoding-cnns-a-beginners-guide-to-convolutional-neural-networks-and-their-applications-1a8806cbf536

Vision Transformers: https://cameronrwolfe.substack.com/p/vision-transformers

Gartner riport 2025 és Data Science érintettsége

A Gartner amerikai tanácsadó cég, amely nagyvállalatoknak és a világ kormányainak nyújt világszerte szolgáltatásokat. Adataink megadását követően a riport ingyenesen elérhető, amely a tíz legfontosabb technológiai trendet tartalmazza. Az egyes technológiák leírása mellett előrejelzéseket is bemutat, amelyek pontossága 3–5 éven belül igazolódhat.

Aki kíváncsi a 10-es listára, annak ajánlom a riport letöltését. Biztos, hogy – a tavalyi évhez hasonlóan – idén is nagy az AI-érintettség. Míg tavaly a 10 témából körülbelül 6 kapcsolódott közvetlenül az AI-hoz és annak alkalmazásaihoz, idén ez a szám 9-re emelkedett.

Az AI-ban rejlő magas potenciálra jó példa az Agentic AI, amely a tavalyi riportban inkább use case jelent meg, idén viszont abszolút az első helyen szerepel. A Trendency Online Zrt.-nél ehhez kapcsolódóan végzünk kutatásokat: azt vizsgáljuk, hogyan lehet kiszervezni a munkát a generatív AI-eszközökkel ellátott hálózatnak/láncolatnak. Például az újságcikkekhez címeket javasló megoldásunk két ágens párbeszéde alapján készíti el a legjobb és legkreatívabb címeket. Az így létrehozott címek szignifikánsan jobb eredményeket értek el a belső körös tesztelésünkön, mint az egy lépésben generált címek.

Az AI előnyeinek kihasználása mellett azonban olyan kérdésekre is választ kell találnunk, mint például: hogyan lehet szabályozni ezt a technológiát, hogyan lehet megkülönböztetni az AI által generált tartalmat az ember által készítettől. További fontos kérdés, hogy milyen technológiákkal tudjuk mérsékelni a hatalmas adatközpontok energiaigényét.

Ha kíváncsi vagy a teljes riport tartalmára, itt megtalálod: https://www.gartner.com/en/articles/top-technology-trends-2025

Gemini CLI a gyakorlatban

A Gemini CLI a Google nyílt forráskódú mesterségesintelligencia-eszköze, amely lehetővé teszi a fejlesztők számára, hogy közvetlenül a terminálból kommunikáljanak a Gemini 2.5 Pro modellel. A CLI egy olyan AI-agent, amely kifejezetten a fejlesztői munkafolyamatok támogatására készült: képes kódot generálni, hibát keresni, fájlokat szerkeszteni, shell-parancsokat futtatni, dokumentumokat vagy multimédiás tartalmakat értelmezni, és akár alkalmazásokat létrehozni pusztán vázlat vagy szöveges utasítás alapján.

A Gemini CLI használata egyszerű: Node.js környezetben egyetlen paranccsal telepíthető, majd egy rövid bejelentkezési folyamat után azonnal használható. A Google személyes fiókkal 1 000 napi és 60 másodpercenkénti modellhívást biztosít, akár 1 millió tokenes kontextusablakkal, ami különösen hasznos nagy kódbázisokkal vagy összetett projektekkel dolgozók számára.

Az eszköz kiemelkedik abban, hogy nemcsak szöveges, hanem multimodális bemeneteket is kezel: PDF-ekből, képekből vagy egyszerű rajzokból képes értelmes outputot generálni, sőt támogatja a Google kereső integrációját is valós idejű információszerzéshez. A Model Context Protocol révén a CLI tovább bővíthető más eszközökkel és kiegészítőkkel is, így automatizált pipeline-ok részeként is jól alkalmazható.

A Gemini CLI nyílt forráskódú (Apache 2.0 licenc alatt), a Google aktívan bátorítja a közösségi hozzájárulásokat. Ez az eszköz ideális választás mindazoknak, akik gyors, intelligens, fejlesztőközpontú AI-asszisztenst keresnek a parancssorba, különösen nyelvi, kódolási vagy rendszeradminisztrációs feladatokhoz.

Forráskód és telepítési útmutató: GitHub.

Egyszerű problémákra egyszerű megoldások: Klasszikus gépi tanulás a képfeldolgozásban

A mély neurális hálók térhódítása miatt gyakran megfeledkezünk olyan klasszikus módszerekről a képfeldolgozásban és a gépi látásban, melyek még mindig jól használhatók bizonyos feladatokhoz.

A klasszikus megközelítések nem múzeumi darabok, inkább azok a jól bevált kéziszerszámok, amikkel még mindig sok minden megoldható, ha tudjuk, hogyan használjuk őket.

Éldetektálás

Az élek keresése a képen a fényesség/intenzitás hirtelen változása alapján történik. Az éldetektálás alkalmas lehet például dobozok kontúrjainak kiemelésére, ami segíthet a deformációk felismerésében. Az egyik ilyen algoritmus a Canny éldetektáló.

Sarokpontok és pontmegfeleltetés

A sarokpontok keresése, hasonló működik mint az éldetektálás, ám ezúttal kétirányú intenzitásváltozást keresünk. A sarokpontok feltárása elengedhetetlen része a pontmegfeleltetésnek, ahol az egyik képen detektált pontokat keressük meg egy másik képen, ezt használva például követni tudunk egy tárgyat videón.

Szegmentálás

A szegmentálás célja a kép egybetartozó részeinek elkülönítése - például használható betűk vagy számok kiemelésére a képből.

Képosztályozás

Klasszikus gépi tanulási modellek, mint a k-NN, a logisztikus regresszió vagy az SVM működőképesek lehetnek kis adathalmazokon, ám sajnos jelentősen elmaradnak például a konvolúciós neurális hálók (CNN-ek) teljesítményétől.

Objektum-detektáláss

Nem minden felismeréshez kell neurális háló. Egyes esetekben egy jól összerakott pipeline-nal: HOG (Histogram of Oriented Gradients) + SVM + Sliding Window + Non-Maximum Suppression, is megugorható feladat.

Miért fontos mindez?

Nem szabad megfeledkeznünk a képfeldolgozás veteránjairól, sokszor egy egyszerű, értelmezhető, átlátható, gyors és kevésbé erőforrásigényes megoldást tud nyújtani bizonyos feladatokra vagy részfeladatokra.

Promptfoo

A Promptfoo egy nyílt forráskódú CLI és könyvtár, amely segítségünkre lehet abban, hogy az LLM-fejlesztést ne esetleges próbálkozások sorozata, hanem szisztematikus tesztvezérelt értékelés jellemezze.

Az eszköz átfogó tesztelést, biztonsági vizsgálatot és teljesítményoptimalizálást tesz lehetővé LLM-alkalmazások számára. Lokálisan futtatható, biztosítja az adatok védelmét, és egyetlen platformon nyújt értékelési és a red teaming funkciókat is.

A Promptfoo egy érett, átfogó megoldást képvisel, amely a teljes fejlesztési életciklust lefedi. A könnyű használat, hatékony funkciók és vállalati szintű képességek kombinációja nélkülözhetetlen eszközzé teheti az LLM alkalmazásokat építő adattudósok és ML mérnökök számára. Az eszköz erőssége abban rejlik, hogy képes skálázódni az egyéni fejlesztői használati esetektől a vállalati szintű telepítésekig, miközben a biztonságra, teljesítményre és fejlesztői élményre is kiemelt hangsúlyt helyez.

Promptfoo: Intro | Promptfoo.

Az MI bevezetése nem csupán technológiai kérdés – a siker kulcsa az ember

Trendency 2025 első negyedéves kutatása szerint a hazai vállalatok MI-adaptációja komoly akadályokba ütközik: a megfelelő szakértelem, a munkavállalói edukáció és a vezetői elköteleződés hiánya jelentik a legnagyobb kihívásokat. Bár a technológia adott, a valódi áttöréshez szemléletváltás, szervezeti átalakulás és emberközpontú megközelítés szükséges. Cikkünkben bemutatjuk, miért válik az emberi tényező a mesterséges intelligencia bevezetésének legfontosabb sikertényezőjévé.

Ha kíváncsi vagy a tanulmányra: AI-siker-kulcsa.

Nagy nyelvi modellek összehasonlítása

A nagy szereplők hétről hétre jönnek ki új LLM-mel, amelyek a közlemények szerint természetesen mindig a benchmarkok tetejére repítik őket. De vajon hogyan tudjuk őket érdemben összehasonlítani? Mit lehet tenni a contamination problémakörével vagyis, azzal, hogy az LLM-ek tanítóadat-halmazába óvatlanul is belekerülhetnek a benchmark adatok?

A kérdés megválaszolására 4 benchmarkot hoztunk nektek:

Az Apple nagy hullámokat vető tanulmánya (Shojaee et al., 2025) szisztematikusan vizsgálja ezeket a hiányosságokat kontrollálható rejtvénykörnyezetek segítségével, melyek lehetővé teszik a kompozicionális komplexitás pontos manipulálását, miközben következetes logikai struktúrákat tartanak fenn. Ez a beállítás nemcsak a végső válaszok elemzését teszi lehetővé, hanem a belső következtetési váz vizsgálatát is, betekintést nyújtva abba, hogyan "gondolkodnak" az LRM-ek. Különböző rejtvényeken végzett kiterjedt kísérletezés révén megmutatták, hogy az élvonalbeli LRM-ek teljes mértékű pontossági összeomlást szenvednek bizonyos komplexitásokon túl. A modellek továbbá ellentmondásos skálázási korlátokat mutattak: következtetési erőfeszítésük egy pontig növekedett a probléma komplexitásával, majd csökkent annak ellenére, hogy megfelelő token-költségvetéssel rendelkeztek.

Az LRM-eket standard LLM társaikkal összehasonlítva egyenértékű következtetési számítás alatt a kutatók három teljesítménytartományt azonosítottak: (1) alacsony komplexitású feladatok, ahol a standard modellek meglepő módon felülmúlják az LRM-eket, (2) közepes komplexitású feladatok, ahol az LRM-ekben a további gondolkodás előnyt mutat, és (3) magas komplexitású feladatok, ahol mindkét fajta modell teljes összeomlást produkál. A tanulmány megállapítja, hogy az LRM-eknek korlátaik vannak a pontos számításban: nem tudnak explicit algoritmusokat használni és következetlenül érvelnek a különböző rejtvények között.

Az eredeti tanulmány megjelenése után azonban Anthropic és Open Philanthropy kutatói válaszcikkben jelentős kritikákat fogalmaztak meg a kísérleti elrendezéssel kapcsolatban (Opus & Lawsen, 2025). A "gondolkodás illúziójának illúziója" címet viselő kommentár azt állítja, hogy a látszólagos következtetési összeomlás nagy része kísérlettervezési hibákból fakad, nem pedig alapvető érvelési korlátokból. A kritikusok szerint az egyik rejtvény (Hanoi tornyai) esetében a modellek valójában felismerik a token-limitációkat, és tudatosan rövidítik a kimenetet, nem pedig érvelési kudarcot szenvednek el. Továbbá egy másik rejtvény (folyami átkelés) bizonyos feltétel esetében matematikailag megoldhatatlan, mégis a modelleket hibásnak minősítették ezen lehetetlen problémák miatt. Amikor alternatív reprezentációt használtak (például Lua függvény generálása teljes lépéslista helyett), a modellek magas pontosságot értek el a korábban "összeomlásnak" minősített Hanoi-torony problémákon is, ami arra utal, hogy a korlátok inkább formátum-specifikusak, mint alapvetően érvelési jellegűek.

https://livebench.ai/#/ – Tudományágankénti összehasonlítás és folyamatosan bővülő adathalmaz a contamination elkerülésére.

https://llm-stats.com/ – Naponta frissül, és a GPQA benchamark mellett tartalmazza a modellek context window-ját és API hívásának árát is, ami a modell teljesítményénél is fontosabb döntő szempont lehet.

https://paperswithcode.com/ – Kisebb modellek összehasonlítását segítő oldal, viszont a machine learning összes problémájához tartalmaz adathalmazokat és eredménytáblákat.

https://docsbot.ai/models/compare/gpt-4o-mini/o4-mini – Két modell között vacillálsz? A Docsbot ebben tud a segítségedre lenni.

LLM-ek őszintesége és annak javítása

A CoT (Chain of Thought) egy, a mai LLM-eknél rendkívül népszerű módszer, amelynek során a modell egy összetettebb feladat megoldásához “hangosan gondolkozik”, azaz leírja a saját gondolatmenetét, mielőtt előáll a végső válasszal. Ez azonban nem feltétlenül tükrözi a modell tényleges gondolkodását.

Az Anthropic Alignment Science csapata végzett egy kutatást (Chen et. al., 2025), amelyben azt vizsgálták, hogy ha LLM-eknek feleletválasztós kérdéseket adnak, és azokhoz hinteket (utalásokat) a helyes válaszról, akkor a modellek a hint felhasználását megemlítik-e a CoT során. A tapasztalatuk az volt, hogy bár a kifejezetten következtetésre tanított modellek (DeepSeek R1 és Claude 3.7 Sonnet) többször említik meg a hint használatát, mint a nem ilyen típusú modellek (DeepSeek V3 és Claude 3.5 Sonnet), mindkét esetben van szignifikáns mennyiségű – és a feladattól függően nagyban változó arányú – eset, amikor bár a modell felhasználja a hintet, de nem szól róla. Érdekesség, hogy sokszor akkor is a hintet használja, ha amúgy az helytelen, illetve hogy a hintet nem említő válaszok általában hosszabbak – mert a modell igyekszik megmagyarázni, miért azt a választ adja. Ha pedig kifejezetten Reward Hacking-re tanítanak modellt (azaz hogy a válasz logikus kikövetkeztetése helyett a bemenet egy adott pontján keresse a megoldást, mint a hint esetében, amely megoldás ez esetben mindig rossz), akkor még alacsonyabb, 1% körüli azon esetek száma, amikor a modell említést tesz erről.

A CoT pontatlanságára azonban léteznek megoldások: az Apple és a Duke University együttműködésében született egy cikk (Xie et. al., 2025), amelyben az úgynevezett Interleaved Reasoning megoldást mutatják be. Ennek lényege, hogy a modell a megszokott CoT utáni válasz helyett a CoT közben is ad részválaszokat. Ez lehetővé teszi, hogy a tanítás során a következtetés egyes lépései is ellenőrizhetőek és jutalmazhatóak legyenek, növelve a válasz pontosságát és csökkentve a válaszadás kezdetéig eltelő időt. Ez a módszer hasznos lehet a fent említett őszintétlenségi probléma megoldásában is, mert szigorúbb feltételeket támaszt a CoT-vel szemben.

Model Context Protocol

A Model Context Protocol (MCP) egy új szabványosítási törekvés, amely azt célozza, hogy a nagy nyelvi modellek (LLM-ek) hatékonyabban, strukturáltabban és biztonságosabban tudjanak együttműködni külső szolgáltatásokkal, eszközökkel és adatokkal. Az alapgondolat onnan indul, hogy még a legmodernebb modellek is kizárólag a számukra adott kontextusból képesek dolgozni, vagyis csak abból az információból, ami az éppen aktuális promptban szerepel. A korábbi üzenetváltások, a rendszerüzenet (system prompt), egy adott kalkuláció eredménye vagy egy dokumentum szövege mind-mind a kontextus része — de ennek kezelésére eddig nem létezett egységes, gépileg értelmezhető szabvány.

Ez különösen problémás, amikor a modellnek valós idejű, dinamikus vagy érzékeny külső adatforrásokra van szüksége, például egy adatbázis lekérdezésére, egy fájl elolvasására vagy akár egy egyszerű számítás elvégzésére. Az ilyen integrációk eddig minden rendszerben egyedileg voltak megoldva, nem létezett szabványos mód arra, hogy a modell „tudja”, hogyan férhet hozzá egy külső szolgáltatáshoz. Pontosan úgy, ahogy a REST API-k előtti korszakban minden alkalmazás saját adatbázis-integrációs réteget írt — mígnem a REST szabvány bevezetésével ez leegyszerűsödött és egységessé vált. Az MCP egy hasonló szerepet tölt be, csak nem emberek és alkalmazások között, hanem LLM-ek és kiszolgáló szolgáltatások között.

Az MCP három fő komponensből áll: Tools, Resources és Prompts. A Tools olyan futtatható funkciókat jelentenek, amelyeket az LLM saját belátása szerint hívhat meg, például számológépet vagy fájltörlőt. Ezeket a list_tools végpont segítségével kérdezi le a kliens (host), majd ha a modell úgy dönt, egy call_tool hívással aktiválja őket. A Resources passzív adatforrások, mint például fájlok, logok, adatbázis-rekordok vagy képek, amelyeket a kliens alkalmazás kontrollál, és a felhasználó jóváhagyása vagy a UI logikája dönt arról, hogy bekerüljenek-e a modell kontextusába. Végül a Prompts előre definiált, dinamikus sablonok, amelyeket a felhasználó választhat ki — ezek vezetik végig például egy hibakeresési folyamaton vagy commit üzenet generálásán.

Az MCP működésének logikáját egy architektúra írja le, ahol négy szereplő van: a felhasználó (👤), aki interakciót kezdeményez; a kliens (💻), amely lehet például egy desktop alkalmazás vagy webes felület; a modell (🧠), amely a kérdésekre válaszol vagy eszközöket hív; valamint a szerver (🛠), amely a valódi eszközök, fájlok, adatok vagy workflow-k mögött áll. A kliens az, aki MCP kapcsolatot létesít a szerverrel — a modell nem lát közvetlenül semmilyen API-t, fájlrendszert vagy adatbázist. Ehelyett a kliens listázza a szerver által elérhető eszközöket és adatokat, majd ezek alapján építi fel a kontextust, amit a modell lát. A modell ezt a kontextust használva dönthet például egy eszköz meghívásáról.

Ez a struktúra lehetővé teszi, hogy a LLM-ek sandboxolt, de mégis interaktív módon férhessenek hozzá komplex rendszerekhez, mindezt úgy, hogy az egyes komponensek (pl. mely adat, mely prompt, mely tool érhető el) pontosan kontrollálható legyen — modell, kliens vagy épp felhasználói szinten. A különböző kontrollszintek (modell-vezérelt, alkalmazás-vezérelt, felhasználó-vezérelt) lehetővé teszik, hogy az egyes komponensek mindig ott és úgy kerüljenek be az LLM kontextusába, ahogy az az adott alkalmazás céljához legjobban illeszkedik.

Az MCP tehát nem csupán egy technikai réteg, hanem egy teljes szemléletváltás a modellek körüli szoftveres ökoszisztéma felépítésében.

A gondolkodás illúziója: Az LRM-ek értékelése problémakomplexitáson keresztül

A legújabb generációs élvonalbeli nyelvi modellekkel együtt a piacra kerültek a nagy érvelő modellek (LRM-eket) is, amelyek részletes gondolkodási folyamatokat generálnak a válaszadás előtt. Bár ezek a modellek jobb teljesítményt mutatnak a következtetési benchmarkokban, alapvető képességeik, skálázási tulajdonságaik és korlátaik még nincsenek kellőképpen feltárva. A jelenlegi értékelések elsősorban a bevett matematikai és programozási benchmarkokra összpontosítanak, kiemelve a végső válasz pontosságát. Ezt az értékelési paradigmát azonban gyakran sújtja az adatkontamináció, és nem nyújt rálátást az következtetési folyamat szerkezetére és minőségére.

Ha kíváncsi vagy a tanulmányra: Illusion-of-thinking.

Ha kíváncsi vagy az ellen tanulmányra: Kommentár.

Trendency nyílt forráskódú, magyar leiratozó modell

Fogadjátok sok szeretettel a Trendency Online Zrt. Data csapatának első, Apache 2.0 licenc alatt elérhető nyílt forráskódú megoldását!

A Hugging Face-en publikált, magyar nyelvre optimalizált leiratozó modellünk meghaladja a Microsoft Teams pontosságát - ami önmagában is nagy szó. Emellett könnyedén integrálható saját rendszerekbe, és ha a leiratokat egy nagy nyelvi modellel (LLM) is feldolgozzuk, akkor ideális alap meeting-memók automatikus készítéséhez vagy egyszerűbb hangalapú asszisztensekhez.

További előnye, hogy továbbtanítható: ha nálatok specifikus szakkifejezések vannak használatban, azokat is könnyedén megtaníthatjátok a modellnek.

Hogyan készült? Az OpenAI által publikált Whisper-modellt vettük alapul, és a legnagyobb, nyilvánosan elérhető magyar hanganyag-adatbázisokon képeztük tovább. Belefektettük a szükséges tanítási órákat, és voilá - elkészült!

Ha még ennél is jobb modellre lenne szükségetek, keressetek minket bátran! Van egy továbbfejlesztett verziónk is, amely a generatív AI lehetőségeit ötvözi a vérrel és verejtékkel anotált saját tanítóadatainkkal.

Itt érhető el: https://huggingface.co/Trendency/whisper-large-v3-hu

AI evangélisták vs. AI szkeptikusok – hogyan gondolkodnak valójában a magyar vállalatok

A mesterséges intelligencia nem a jövő, hanem a jelen – de nem mindenki lép egyszerre. Aki kimarad, lemarad?!

Friss kutatásunkban több száz Magyarországon működő cég válaszai alapján vizsgáltuk meg, hol tartanak a hazai vállalatok az AI bevezetésében. Vannak, akik már túl vannak az első etapon, mások most állnak rajthoz, és olyanok is akadnak, akik kételkedve nézik a történéseket. Egy biztos: az AI bevezetése nem egy sprint, hanem egy maraton.

Figyelmedbe ajánljuk kutatási anyagunk kivonatát, melyben a magyar cégek AI-érettsége, a technológiai hype mögött húzódó valós elvárások és félelmek is terítékre kerülnek.

Ha kíváncsi vagy a cikkre: HazAI kutatás.

Minden LLM AI, de nem minden AI LLM

A nagy nyelvi modellek, vagyis az LLM-ek sokak szemében ma egyet jelentenek a mesterséges intelligenciával. Pedig ahogy az ember sem maga az evolúció, úgy az LLM-ek is csupán egyetlen, látványos leágazást képviselnek az AI kiterjedt és változatos családfáján. Cikkünkben megmutatjuk, honnan ered ez a fejlődési vonal, hogyan kapcsolódik a mesterséges intelligencia sokkal tágabb világához, és miért érdemes az LLM-láz közepette is tágabb perspektívában gondolkodni.

Ha kíváncsi vagy a cikkre: Minden LLM AI.

vLLM

A vLLM egy, a Huggingface transformers könyvtárához hasonló, csak LLM inference-re használható keretrendszer. A legfontosabb újítás, amit bevezettek, a PagedAttention módszer, aminek segítségével a KV (Key-Value) Cache-t a memóriában nem egyben, hanem úgynevezett page-ekre osztva tárolják, így sokkal hatékonyabban tudják feltölteni a szabad memóriaterületeket. Ez a módszer analóg a virtuális memóriával. További optimalizációs technikák, amiket a vLLM tartalmaz, az Automatic Prefix Caching, amivel az algoritmus kérések között is eltárolja a KV Cache-t a szöveg elejéhez (pl system prompt), illetve a Speculative Decoding, ahol egy kisebb modelt használ a tokenek predikciójához, a nagyobb modellel ellenőrzi, és csak ha rossz, akkor generáltatja le a tokeneket a nagy modellel.

A keretrendszer sokan használják (pl. Databricks), komoly (3-4x-es) sebességnövekedést lehet vele elérni, de ez csak akkor érvényesül, ha a model sok és batch-elt kérést kap (kivévespekulatív decoding-nál). A használata igen egyszerű, és kompatibilis az OpenAI-os API-t használó alkalmazásokkal is. Folyamatosan fejlesztik és kerülnek bele újabb feature-ök.

LLM Ágensek - LangChain, LangGraph, LangSmith ökoszisztéma

A LangChain és LangGraph ökoszisztéma lehetőséget ad arra, hogy nagy nyelvi modelleket (LLM-eket) ne csupán kérdés-válasz formában használjunk, hanem összetettebb, jól irányítható munkafolyamatokba illesszünk. A LangChain moduláris felépítésű, ügynököket és láncokat kezelő keretrendszer, míg a LangGraph segítségével ezekből állapotalapú, vizuálisan is áttekinthető gráfok építhetők, amelyek támogatják a ciklusokat, feltételeket és emberi visszacsatolásokat is. A LangSmith eszköz ezen rendszerek monitorozásához, hibakereséséhez és finomhangolásához nyújt átlátható felületet.

Ez a megközelítés azért különösen hasznos, mert lehetőséget ad moduláris, újrahasznosítható komponensek építésére, valamint összetett és mégis kontrollálható rendszerek kialakítására. A LangGraph logikája révén csökkenthető a nagy nyelvi modellek válaszainak változékonysága, hiszen az LLM-ek egy jól definiált folyamat részeként működnek – világosan meghatározott szerepekben és lépések mentén.

Egy gyakorlati példa során egy olyan adatelemző rendszer készült, amely bármilyen táblázatos adat alapján képes feltáró adatvizsgálati (EDA) tervet készíteni, emberi visszacsatolás alapján többször finomítani, majd automatikusan Python-kódot generálni az elemzéshez. A folyamat jól demonstrálja, hogyan tehetjük az LLM-eket megbízhatóbbá valódi felhasználási környezetben.

Kritikus gondolkodás a generatív MI korában

A Microsoft és a Carnegie Mellon egyetem kutatói szellemi foglalkoztatottakat vizsgáltak, hogy feltárják a GenAI eszközök használatának hatásait a kritikus gondolkodás komponenseire és mértékére.

Eredményeik pozitív vetülete, az a lehetőség, hogy az emberi munkavégzés a monoton, “favágás”-jellegű feladatokról a magasabb szintű, komplexebb, kreatívabb szintek felé tolódhat, ahogy egyre több részfeladatot szervezünk ki a mesterséges intelligenciának. Ugyanakkor a hátulütők is világosak: a technológiától való növekvő mértékű függés és a kritikus gondolkodásra való hajlandóság csökkenése.

A figyelmeztetés beleilleszkedik az automatizáció nyomán jelentkező kognitív atrófia jelenségével foglalkozó pszichológiai szakirodalom megállapításaiba. A lényeg, hogy a hatékonyság növekedésének hosszabb távon komoly ára lehet, amennyiben nem használt alapkészségeink, ítélőerőnk, elemzési képességünk elsorvadnak, így egy hirtelen elénk kerülő komoly kihívás felkészületlenül ér minket, ha a kedvenc eszközünk egyszer elérhetetlenné válik vagy nem elég jó a megfoldásához.

Ez fokozott óvatosságra int, főként az olyanok esetében, akiknek a kritikus képességeik még ki sem fejlődtek, amikor már az eszközhasználathoz hozzászoktak (tanulók, különösen a gyerekek). A kutatás egy fontos tanulsága, hogy az MI képességeivel szembeni fenntartások (a tényleges teljesítményüktől függetlenül) egészségesebb eszközhasználatot, kognitív előnyöket eredményeznek számunkra.

A sajtó konklávéja - Elemzés a jelöltek népszerűségéről a globális médiatérben

A pápaválasztás nemcsak vallási esemény, hanem globális médiajelenség is. A Trendency Data Science csapata kíváncsi volt, hogyan alakul a választó bíborosok iránti érdeklődés a világsajtóban. Ehhez vektor adatbázisra épülő médiafigyelő rendszerünket és a Google Trends adatait kombináltuk, hogy képet kapjunk arról, kik a pápaválasztás legesélyesebb bíborosai, és kik a nemzeti favoritok – legalábbis az adatok tükrében. Természetesen 2025-ben semmiből sem maradhat ki a generatív AI, ami segített a riport összeállításában és a konkrétan a választásról szóló cikkek kivonatolásában.

Ha kíváncsi vagy az eredményekre: A sajtó konklávéja.

DeepSeek – Hogyan kerül be egy LLM a hírekbe?

2025. január 20-án a kínai DeepSeek vállalat kiadott egy új, nagy nyelvi modellt (LLM: Large Language Model), amely magára vonta a figyelmet mind Data Science körökben, mind pedig a piacon. A DeepSeek R1 publikálását követően az NVIDIA vállalat részvényei összesen 589 milliárd dollárt estek, ahogy sok más amerikai AI-hoz köthető részvény ára is bezuhant a nap folyamán. Hogyan okozhatott egy ilyen meglehetősen hétköznapi esemény ilyen léptékű változásokat?

Először is, hadd szolgáljunk némi háttérinformációval. A DeepSeek vállalatot 2023-ban alapították Kínában és bár meglehetősen új szereplő ezen a piacon, nem ez az első nagyközönség számára is elérhető modelljük. 2023 novemberében adták ki a DeepSeek Coder névre hallgató első, saját nagy nyelvi modelljüket, ami lényegében a Meta által közreadott Llama modell másolata volt. Ezt követően sorozatosan adtak ki különböző feladatokra specializált LLM-eket, azonban egészen az R1-es megjelenéséig nem értek el nagyobb áttörés.

DeepSeek R1: A Bajnok

A DeepSeek R1 modell lényegében a DeepSeek V3 továbbtanított változata. Ez az új verzió kifejezetten logikai következtetésekre, kódolásra és matematikai problémák megoldására optimalizált, ami az úgynevezett Chain-of-Tought technikát használja. Ami azt jelenti, hogy az R1 modell lényegében önmagával vitatja meg a lépéseket és önmagának ad visszajelzést azokkal kapcsolatban, így biztosabb, hogy helyes következtetésekre jut az adott probléma kapcsán.

Ez azonban még nem magyarázat a DeepSeek R1 modell üstökösszerű felívelésére, lássuk az okokat:

- Kína jelenleg GPU embargó alatt van az USA részéről, ami jelentősen korlátozza a hardverbeszerzési- és használati lehetőségeiket. Ennek kiküszöbölésére a DeepSeek kutatói több optimalizációs technikát is bevetettek, melynek eredményeképpen a korábban nyílt elérésű modellek között bajnok Llama modellekhez képest 10-szer kevesebb tanítási erőforrás felhasználásával is jobb eredményt értek el.

- A DeepSeek R1 felveszi a versenyt az OpenAI legújabb hasonló modelljeivel, és bizonyos benchmarkokon le is győzi őket. (Habár a verseny szoros, és ez a teljesítmény-növekedés nem látványos.)

- Az R1 egy bárki által letölthető és használható, nyílt modell, amely elérhető több másik, a vállalat által készített, kisebb teljesítményű és hardverigényű, úgynevezett Distilled modellel együtt. Valamint a DeepSeek jelentősen olcsóbban kínál API alapú hozzáférést a saját modelljeihez, mint az OpenAI.

Technológiai újítások

A DeepSeek V3 és R1 szerkezetüket tekintve nem térnek el jelentősen az eddig is domináns modellektől, amelyek mind az úgynevezett Transformer architektúrán alapulnak. A szerkezeti újítások, amiket alkalmaztak, a szöveg-generálás sebességének növelését és az erőforrás-használat csökkentését szolgálják.

Az igazi áttörést a modellek tanítása során alkalmazott módszerek jelentik, amelyek töredékére csökkentették a szükséges számítási kapacitást. Itt vegyesen alkalmaztak alacsony szintű, közvetlenül a hardveren futó kódot érintő módosításokat és olyan technikákat, amelyek sokkal kevesebb példa-adatból is lehetővé tették a modellek számára a hatékony tanulást.

Ezen felül a kész R1-es modell egyfajta tanító LLM-ként való felhasználásával létrehoztak egy sor kisebb méretű modellt is, amelyek már korábban létező nyílt elérésű modelleken alapulnak, és ezeket tovább tanították következtetéses, matematikai és kódolási feladatokra.

Kifejezetten szakmai szemmel nézve a következő technikákat használták:

- Multi-Headed Latent Attention: az Attention mechanizmus alacsonyabb dimenzionalitású vektortérben működő verziója, ami csökkenti a modell méretét.

- DeepSeekMoE: Mixture-of-Experts módszer, ami lehetővé teszi, hogy a szöveg generáláskor csak a súlyok kis része aktiválódjon a modellben.

- Multi-Token Prediction: a modell egyszerre több tokent is generál, ez javítja a tanulási teljesítményt és spekulatív generálásra is lehetőséget ad.

- FP8 Mixed-Precision Training: a modell bizonyos részei alacsonyabb pontosságú paramétereket használnak, ez csökkenti a modellméretet és gyorsítja a tanítást.

- Near Full Computation-Communication Overlap: a tanításhoz használt GPU-kra egy CUDA-nál alacsonyabb szintű nyelven írtak optimalizált keretrendszert, ami jelentősen hatékonyabbá teszi a több GPU-n történő elosztott tanítást.

- Large Scale Reinforcement Learning és Supervised Fine-Tuning lépések: az R1 tanítása során vegyesen tanítottak előre megadott következtetési láncokon és csak a végkövetkeztetést megadva, a generált outputot kiértékeléses alapon jutalmazva, ez sokkal kevesebb adatot igényelt, mint a korábbi módszerek.

A DeepSeek R1 használata

A teljes R1 használatához olyan hardverre van szükségünk, ami a modellhez tartozó mind a 671 trillió paramétert képes a memóriában tartani, ez kb. 1543 GB-nyi RAM/VRAM-nyi adatot jelent (vagyis a használatához hozzávetőlegesen 16 db NVIDIA A100-as GPU-ra van szükség). Quantized, azaz csökkentett pontosságú modellek ennél kevesebb tárhellyel is működőképesek, de a teljesítményük is rosszabb. Ugyanez igaz a fent említett Distilled modellekre is, amik a maguk kategóriájában kiemelkedő teljesítményt nyújtanak, de nem veszik fel a versenyt a nagyobb modellekkel.

Ha nem áll rendelkezésünkre ekkora tárhely, választhatjuk a DeepSeek API-jának használatát, ám ez adatbiztonsági kockázatokkal jár, ugyanis a DeepSeek fenntartja a jogot a rendszerükbe feltöltött adatok felhasználására. Regisztrálni egyébként Google Accounttal vagy kínai email címmel/telefonszámmal lehetséges, ezt követően kézzel ingyenesen kipróbálhatóak mind a V3, mind az R1 modellek.

Az API-n keresztül való használat árazása az OpenAI-hoz képest igen kedvező:

	DeepSeek V3	ChatGPT 4o	DeepSeek R1	ChatGPT o1
1M input token (cache)	$0.014	$1.25	$0.14	$7.5
1M input token	$0.14	$2.5	$0.55	$15
1M output token	$0.28	$10	$2.19	$60
Context window (token)	64,000	128,000	64,000	200,000

Táncba hívás, avagy tapasztalatok első kézből

✔ Magyartudás: Mindkét vizsgált modellel kommunikálhatunk magyarul. A V3 és az R1 is gyakorlatilag helyesírási hibák nélküli, választékos nyelvezettel fog nekünk válaszolni, a ChatGPT 4o-hoz hasonlóan.

✔ Matematika: Matematikai feladatok esetén képes összetettebb bizonyításokra, ugyanakkor nem mond ellent a felhasználónak, így megpróbál bebizonyítani valótlan állításokat is, ahelyett, hogy megcáfolná azokat.

✘ Komplex kódolási feladatok: A komplexebb kódolási problémák, már megakaszthatják a működését, előfordult, hogy hibás kódokat generált, vagy bizonyos specifikus könyvtárak funkcióival nem volt tisztában.

✘ Cenzúra: Bizonyos szenzitív témákban cenzorált a kapott adat.

Következmények

A DeepSeek R1 valószínűleg csak rövid ideig birtokolhatja a „legjobb LLM” titulust, mert már most több vállalat állítja, hogy az ő megoldásaik jobb teljesítményt nyújtanak az R1 modellnél. A modell jelentősége azonban nem a hosszú távú vezető szerepében rejlik, és még csak nem is feltétlenül a nyílt elérésű, fizetős szolgáltatásokkal is versenyképes mivoltában – bár ez is egy fontos aspektus, mert visszairányítja a fókuszt az open-source közegre, és a jövőben más vállalatok is tehetnek lépéseket ebbe az irányba, ami hosszú távon elősegítené az AI demokratizálását. A R1 modell igazi érte a tanítási folyamat optimalizálásával kapcsolatban elért eredményekben keresendő.

Eddig szinte kizárólag óriásvállalatok (Google, OpenAI, Meta, Anthropic stb.) engedhették meg maguknak, hogy saját LLM-eket taníthassanak, ám a DeepSeek által bemutatott technológia megnyitja a kaput a sokkal kisebb számítási kapacitással rendelkező szereplők számára is (pl.: kisebb vállalatok, egyetemek). Az alacsonyabb erőforrásigény és költségek kombinációja, amellyel az optimalizált modellek működnek, azt jelzi, hogy hamarosan új kategória jöhet létre: olyan cégek és startupok, amelyek eddig nem tudtak nagy AI modellekkel dolgozni, most saját fejlesztéseket végezhetnek és beszállhatnak az iparági versenybe.

Habár még mindig millió dolláros nagyságrendről beszélünk, az ilyen típusú fejlesztések azt mutatják, hogy léteznek még kiaknázatlan optimalizációs lehetőségek, amelyek alapjaiban változtathatják meg az LLM-ek iparági helyzetét és a piaci normákat.

És bár az AI területe eddig is folyamatosan fejlődött, ha az az iparági trendek és a fejlesztési költségek ilyen ütemben csökkennek, elképzelhető, hogy a következő években még jelentősebb ugrások várhatók, és az AI alkalmazások még inkább részévé válhatnak a mindennapi vállalati működésnek.

Hatékonyság vs. kényelem

Az AI fejlődésében érdemes megemlíteni egy másik, egyre inkább felértékelődő aspektust is: a keleti és nyugati világ közötti különbséget a technológiai versenyt illetően. Míg a nyugati világ sok esetben a jólétet és a kényelmet helyezi előtérbe – például a munkahelyi wellbeing programokkal, mint a 4 napos munkahét –, addig Kínában és más keleti országokban a hatékonyság és a gyors fejlődés érdekében hajlandóak komoly áldozatokat hozni. A verseny tehát egyértelműen a hatékonyság és az eredményesség irányába dől, és ez az, ami hosszú távon meghatározhatja a globális AI piac alakulását.

Mit jelent mindez a magyar piacra nézve?

Eddig a hazai szereplők számára saját, kifejezetten magyar nyelvű LLM-ek tanítása csak nagyon szűkös keretek között volt elképzelhető. Ez, a DeepSeek által bemutatott újításokkal megváltozhat és teret kaphatnak a hazai vállalatok is, az ilyen és ehhez hasonló fejlesztésekre. A DeepSeek által generált hírverés pedig felkeltheti olyan nagyobb szereplők figyelmét is, akik eddig nem voltak jelen az LLM-ek piacán, ám ennek hatására mégis úgy döntenek, érdemes ilyen technológiákba befektetni.

Chat GPT o1 modell

A nagy nyelvi modellek tipikusan rosszul teljesítenek érvelési feladatokban. Ennek feloldására már több tanulmány is született. A o1 modell előfutárra volt a Let's verify step by step paper , amelyben arról írnak hogyan lehet a válasz megadása során érvelésre késztetni a nagy nyelvi modelleket és a CoT (Chain of Thougths) módszert integrálni a modellek tanításába. Az openai sem volt rest és elkészítette a saját modelljét a Chat GPT o1-t.

A ChatGPT O1 modell a GPT-4o-hoz képest több kulcsfontosságú újítást tartalmaz, amelyek javítják a teljesítményt különösen összetett, logikai feladatok esetén. Az O1 modell a CoT módszerre épít, ami azt jelenti, hogy a kérdéseket lépésekre bontva oldja meg, ami lehetővé teszi mélyebb és pontosabb válaszok adását. Ennek eredményeként az O1 kiválóan teljesít olyan feladatokban, amelyek magas fokú logikai gondolkodást igényelnek, például tudományos és matematikai kérdésekben.

Áttörő eredményeket ért el a többi modellhez képest IQ teszten, de a valódi gondolkodástól még messze áll. Vannak olyan gondolat szál összegzések, amelyek kifejezetten légből kapottak. Például a Simple bench kislányok sütit esznek feladatára adott válaszban „Ártalmatlan kutyákra gondol.

Miért O1 név? Mert várhatóan lesz több verzió is 😉

https://openai.com/index/learning-to-reason-with-llms

Spiking Neural Networks

A Spiking Neural Networks (SNN) az emberi agyhoz hasonló hálózatokat modellez, ahol a neuronok csak egy bizonyos határérték elérésekor küldenek jeleket. Az SNN különlegessége, hogy az idő dimenzióját is kezeli, így hatékonyabb olyan folyamatos adatok feldolgozásában, mint a zene vagy a nyelv.

A neuronok tüzelése a beérkező jelek összegzése alapján történik, és a rendszer többféle kódolási módot használ, például bináris vagy tüzelési rátán alapuló kódolást. A Leaky Integrate-and-Fire modell a biológiai neuronok működését utánozza, ahol a neuronok idővel visszaállnak nyugalmi állapotba, ha nincs újabb inger.

Az SNN speciális neuromorfikus hardvert igényel, mint például az Intel Loihi vagy az IBM TrueNorth chipek, melyek az agy időbeli dinamikáját szimulálják. Ezek a rendszerek energiatakarékosabbak és hatékonyabbak a folyamatos tanulásra tervezett hagyományos neurális hálózatoknál, mivel kevesebb neuront használnak egyszerre.

A tutorial on spiking neural networks for beginners

spiking neural networks the next big thing in ai

Comprehensive review of Spiking Neural Networks

Nagy nyelvi modellek politikai preferenciái

Egy átfogó elemzés 11 politikai orientációs tesztet alkalmazott 24 különféle széles körben használt korszerű társalgási modell vizsgálatára, hogy átfogó képet adjon a nagy nyelvi modellekbe (LLM) ágyazott politikai preferenciákról. Amikor politikai vonatkozású kérdésekkel/nyilatkozatokkal szondáztatják őket, a legtöbb társalgási LLM hajlamos olyan válaszokat generálni, amelyeket a legtöbb politikai teszteszköz a balközép álláspontok preferenciájának megnyilvánulásaként diagnosztizál. Úgy tűnik, hogy ez nem így van öt további alapmodell esetében, amelyekre az emberekkel való társalgásra optimalizált LLM-ek épülnek. Az alapmodellek gyenge teljesítménye a tesztek kérdéseinek koherens megválaszolásában azonban nem teszi meggyőzővé az eredményeknek ezt az alcsoportját. A kutatás azt is bemutatja, hogy az LLM-ek a poltikai spektrum meghatározott helyei felé irányíthatók felügyelt finomhangolás (SFT) segítségével, már szerény mennyiségű politikailag igazodó adat felhasználásával is. Utóbbi eredmény azt sugallja, hogy a finomhangolás képes politikai orientációt beágyazni a modellekbe. Mivel az LLM-ek kezdik részben kiszorítani a hagyományos információforrásokat, mint például a keresőmotorok és a Wikipedia, az LLM-ekbe ágyazott politikai elfogultságok társadalmi következményei jelentősek.

Rozado, D. (2024). The political preferences of LLMs. PloS one, 19(7), e0306621.

DataGemma

A DataGemma modelleket egy kísérletként foghatjuk fel az LLM-ek hallucinációkkal teli világában. Google berkeiben alkottak 4 modellt a Gemma modellcsalád alapjaira, ami valós és tényadatok segítségével tudja minimalizálni a hamis és pontatlan válaszok adását.

A tényadatok forrása a Google Data Commons adatbázis, ami 150 milliárd adatpontot és több százezer számolt statisztikát tartalmaz. Ezen adatok forrása a nyilvánosan elérhető adatokra épül (OECD, ENSZ, WHO, CDC és egyéb statisztikai hivatalok adatállománya).

A hallucinációk kezelésére RAG és RIG módszert alkalmaztak. A RAG (Retrieval-Augmented Generation) esetén a felhasználó által írt prompt alapján történik egy lekérdezés a Google Data Commons adatbázisba és az ott talált információk alapján egy kibővített promptot kap a generatív modell, ebből előállítja a választ. RIG (Retrieval-Interleaved Generation) esetén egy ciklusban történik az adatbázisba kérdezés és generálás folyamata, ami által többszöri finomítása is lehetséges a végső válasznak. Ez a két módszer jelentősen tudja növelni a válaszok pontosságát. A RIG módszer eléggé erőforrásigényes, de a jövőben akár nagyobb szerepet is kaphat. Elsősorban olyan területeken lehet érdemes alkalmazni, ahol a real-time adatok és válaszok nagyon fontosak. A RAG és RIG nélküli alapmodell pontatlanabb válaszokat adott és mindkettő megoldás pontosabbá tette a generálást.

Knowing When to Ask - Bridging Large Language Models and Data

Llama 3.1 újdonságok

A Llama 3.1 modell a legújabb fejlesztés a Meta által kifejlesztett nyelvi modellek sorozatában, amely 2024. július 23-án jelent meg. A modell család három különböző méretű nyíltan elérhető modell variánsait tartalmaz (8B, 70B és 405B), mindegyik igen hosszú, 128K tokennyi kontextussal dolgozik. Léteznek alapmodell variánsok, amelyek általános kiindulópontként szolgálnak specifikus feladatokra készített modellekhez, és az Instruct modellek, amelyek teljes értékű chatbot funkcionalitással rendelkeznek, beleértve külső eszközök használatát is. A Llama 3-as modellek multimodálisak, képesek kép, hang vagy videó feldolgozására is. Teljesítményükben a hasonló méretű nyíltan elérhető modelleknél egyértelműen jobbak, és a legnagyobb modell megközelíti a legkorszerűbb kihívókat is (GPT-4o, Claude 3.5 Sonnet), bár kismértékben alulmarad különböző benchmarkokon végzett összehasonlításokban. A Llama 3-as modellek egyértelműen új etalont alkotnak a nyíltan elérhető modellek között.

Számunkra fontos újdonság, hogy már a legkisebb méretben is nem csak megérti magyar nyelvet, de empirikus alapon válaszolni is tud. Fontos megjegyezni, hogy a pozitív tapasztalotok ellenére a magyar hivatalosan nem támogatott nyelv.

Hivatalos 92 oldalas white paper: https://arxiv.org/abs/2407.21783

Customer Lifetime Value becslése Pareto/NBD és Gamma-Gamma modellek segítségével

A Customer Lifetime Value (CLV) egy üzleti mérőszám, amely segítségével az egyes vásárlócsoportokra fordított költségeket lehet optimalizálni, a vásárlók értéke alapján. Elég adat rendelkezésére állása esetén a múltbeli értéke számolható, azonban jövőbeli értékét ML predikciók segítségével lehet becsülni. Az Pareto/NBD és Gamma-Gamma modellek segítségével a Customer Lifetime Value értéke becsülhető. A Pareto/NBD modell az ügyfelek vásárlási gyakoriságát és elvándorlási valószínűségét méri, míg a Gamma-Gamma modell a vásárlások átlagos értékét becsüli. E modellek kombinálásával pontos és megbízható becsléseket kaphatunk az ügyfelek jövőbeli értékéről, lehetővé téve a hatékonyabb marketing- és erőforrás-allokációt.

Szemléletes videó:

A GPT-4 átment a Turing-teszten

Jones és Bergen (2024) 3 modellt (ELIZA, GPT-3.5 és GPT-4) vizsgált egy randomizált, kontrollált, előregisztrált Turing-teszten. A résztvevők 5 perces szöveges beszélgetést folytattak emberrel vagy mesterséges intelligenciával, majd döntésüket indokolva ítéletet hoztak arról, hogy beszélgetőtársuk ember-e. A GPT-4-et az esetek 54%-ában embernek ítélték, és ezzel felülmúlta a ELIZA-t (22%), de elmaradt a valódi emberektől (67%). A kutatás szolgáltatja az első megbízható empirikus bizonyítékot arra, hogy egy mesterséges rendszer átmegy egy interaktív 2 játékos Turing-teszten. Az eredmények hatással lehetnek a gépi intelligenciával kapcsolatos vitákra, de még sürgetőbb az a felvetés, mely szerint a jelenlegi rendszerekkel elérhető megtévesztés észrevétlen maradhat. A résztvevők stratégiáinak és érvelésének elemzése azt sugallja, hogy a stilisztikai és a társadalmi-érzelmi tényezők nagyobb szerepet játszanak a Turing-teszt teljesítésében, mint az intelligencia hagyományos fogalmai.

Forrás: Jones, C. R., & Bergen, B. K. (2024). People cannot distinguish GPT-4 from a human in a Turing test. arXiv preprint arXiv:2405.08007.

AI iparág helyzete - Retool riport

Újra kiadta éves AI riportját a Retool nevű amerikai szoftverfejlesztő cég. Megkérdeztek idén is 750 főt mindenféle IT és technikai háttérrel. Köztük voltak vezetők, fejlesztők és egyéb technikai szakemberek. A válaszokból keletkezett egy átfogó riport, ami az AI-al kapcsolatos szemantikára, használt technológiákra és üzleti szempontokra is kitér. Az AI fogalmát a válaszadók fele túlértékeltnek tartotta. Ennek okai többek között, hogy mindenre az AI szót használják, illetve üzletileg még kevés hasznot hozott. Szerintük egy kezdeti státuszban lévő folyamat és egyfajta útkeresés szükséges még üzleti megtérülésekhez. A riport megerősíti, hogy production környezetben az OpenAI termékei a legnépszerűbbek, 77 százaléka a cégeknek használja őket, közülük 71% nagyon vagy valamennyire elégedett. Saját AI modelleket a kisebb cégek nem nagyon csinálnak, ez inkább a nagyok játszótere. 50 fő alatti cégek esetén ez 11%, 5000 fő felettieknél 33%. A riport még sok egyéb kérdésre is kitér, érdemes átfutni, a lenti linken található.

Forrás: Read the newest State of AI report | Retool Blog | Cache

Data Science szakterület

Mottónk: „Láthatatlan minták, látható eredmények”

Rólunk

Diverzitás mindenek felett

Látható eredmények a médiaanalitika területéről

Így dolgozunk mi!