Az előző cikkünkben felvázoltuk a mesterséges intelligencia (AI), különösen a generatív AI technológiák vállalati szintű alkalmazásának lehetőségeit és korlátait. Kiemeltük, hogy a generatív AI rendkívüli potenciállal bír tartalomgenerálásban, azonban, ha a feladat nem igényli új tartalom létrehozását, akkor nemcsak elégséges, hanem gyakran előnyösebb lehet egy egyszerűbb, probléma-specifikus modellen alapuló megoldás választása.

Folytatásként mélyebbre ásunk és konkrét üzleti eseteken keresztül mutatjuk be, hogyan lehet ezeket az elveket a gyakorlatban alkalmazni. Bemutatunk két olyan üzleti szituációt, ahol az AI megoldások közül választva nem egyetlen technológiára esett a választásunk, hanem több modell és adatfeldolgozási technika kombinációjára. Cikkünk célja, hogy rávilágítson arra, hogy az optimális megoldás kiválasztása nemcsak a technológia hatékonyságától vagy közvetlen költségeitől függ, hanem az üzleti céloktól, az elérhető adatok jellegétől és az IT infrastruktúrától is.

Az adattudomány egy kísérleti tudományág. Nincs olyan egyetemes algoritmus, ami minden problémára alkalmazható. Sok megoldás létezik egy adott üzleti problémára, és a célunk, hogy ezek közül a nekünk legjobban megfelelőt válasszuk ki, függetlenül attól, mi éppen a trendi ebben az iparágban.

Adatkinyerés és értékelés bankszámlakivonatokból

Az első megoldás, amelyet szeretnénk bemutatni, a bankszámlakivonatok egyeztetésének automatizálása. A projekt célja az volt, hogy automatizálja a bankszámlakivonatokból, egyenlegközlőkből a kulcsinformációk (például számlaszám, záró egyenleg, pénznem stb.) kinyerését, ezeket vesse össze a hozzájuk tartozó könyvelési adatokkal.

Sokan feltételezhetik, hogy az egyetlen feladat a legmegfelelőbb modell kiválasztása, azonban valójában az üzleti cél mellett az adathalmaz sajátosságai határozzák meg a szóba jöhető megoldásokat, nem pedig a rendelkezésre álló specializált modellek kínálata:

  • A banki kivonatok gyakran tartalmaznak homályos szkenneléseket, karakterhibákat, ezáltal korszerű karakterfelismerő (OCR) modellt szükséges alkalmazni valamennyi kivonatra. A karakterek mellett szükséges felismernie a táblázatos formában szereplő adatokat is.
  • A bankszámlakivonatok egy részére jellemző, hogy standardizált, sablonos formátumúak, ezáltal lehetővé téve a reguláris kifejezések (regex) hatékony alkalmazását ezen kivonatok feldolgozására. A hasonló dokumentumfelépítés kapcsán egy gépi tanulásos modell használata túlzás, egy regex gyorsabban és olcsóbban azonosítja a kulcsinformációkat.
  • A bankszámlakivonatok egy jelentős része változatos formátumú és szerkezetű, ennek ellenére a legtöbb kulcsadat táblázatos formában szerepel benne. Ezért nem szükséges minden egyes formátumhoz külön-külön alkalmazkodnunk, elegendő egy táblázatokra specializálódott természetes nyelvfeldolgozásra (NLP – Natural Languages Processing) alapuló modellt alkalmazni, ami azonosítja a különböző típusú kulcsadatokat a táblázatokban. Ennek előfeltétele, hogy az OCR hatékonyan ismerje fel a táblázatos adatokat.
  • A fennmaradt, nem táblázatos formátumú kivonatok esetében alkalmazhatunk egy dokumentumfeldolgozó NLP modellt, amelyhez magas küszöbértéket állítunk be a találatok szűrésére, így minimalizáljuk a fals pozitív találatokat.

A projektünk nem csupán az adatkinyerés automatizálására irányult, hanem az adatok egyeztetésére is a könyveléssel, ami számos kihívást hordozott magában, többek között a hiányzó adatok és az eltérő egyenlegek okán. Ennek ellenére sikerült egy magas, 90% feletti hatékonyságú egyezést elérnünk, miközben gyakorlatilag zéró a fals pozitív egyezőségek száma. Ez a magas szintű pontosság jelentős előrelépést jelentett a bankszámlakivonatok feldolgozásában, bizonyítva, hogy a megfelelő technológiák és algoritmusok kombinációja képes megbirkózni az adatok változatosságával és komplexitásával.

A fő célunk a projekttel nem a manuális munkafolyamatok teljes megszüntetése volt – amely kihívás a legtöbb mesterséges intelligencián alapuló rendszer esetében is –, hanem a monoton, ismétlődő munkatevékenységek minimalizálása volt. Ezzel egy olyan üzleti célt határoztunk meg, aminek teljesítése lehetséges volt az elérhető megoldásokkal: a céges erőforrások jobb allokációját tűztük ki (persze nem csak feladatautomatizációval lehet értéket teremteni ML modellekkel). Azt szeretnénk elérni, hogy a korábbi manuális egyeztetésből fakadó munkaórákat jelentősen csökkentsük, az egyeztetéssel töltött időt gyakorlatilag megszüntessük. Ezzel nemcsak jelentős munkaerő-megtakarítást érhetünk el, hanem lehetővé tesszük a szakemberek számára, hogy magasabb hozzáadott értékű feladatokra összpontosítsanak.

Előfordulhat, hogy találunk egy, a bankszámlakivonatok feldolgozására előre betanított NLP modellt, amit „kész megoldásként” azonnal használhatunk, ezzel jelentős időt megtakarítva. Ugyanakkor valószínű, hogy egy hasonló modell sem egy technológiát, hanem több lépést alkalmaz az adatkinyerésre, amelyek nem biztos, hogy tökéletesen illeszkednek a saját adathalmazunkhoz – ugyanis más jellegű bankszámlakivonatokat vettek mintaként a fejlesztői. Ebben az esetben szükségessé válhat a modell testreszabása és betanítása, ami nem feltétlenül jelent költséghatékonyabb megoldást, mintha eleve saját adatbázisunkra és céljainkra szabott megoldást fejlesztenénk.

Felmerülhet továbbá az a kérdés is, miért nem az OpenAI képfájlok feldolgozására is alkalmas modelljét, a GPT-4 vision-t használtuk adatkinyerési feladataink megoldására. A generatív modellek, bár rendkívül sokoldalúak, nem feltétlenül jelentik a legjobb választást adatkinyerési feladatokhoz:

  • GPT-4 vision használata korlátozva van egyelőre, így a felhasználók csak egy limiten belül képesek a szolgáltatást használni. Így nagyobb adathalmazokat nem lehet egyszerre feldolgozni.
  • Jelenleg ennek a modellnek a felhasználási költsége magasabb, mint a fent bemutatott megoldás költsége.
  • A „hagyományos” természetes nyelvfeldolgozási megoldások finomhangolása egyszerűbb, ami sok esetben szükséges a minél pontosabb eredmények eléréséhez.

A generatív AI alkalmazása akkor javasolt, amikor a modellnek összetett nyelvi tartalmak értelmezésére és generálására van szüksége, és ezekre a nem generatív modellek már nem jelentenek az üzleti problémára elfogadható megoldást. A következő esettanulmányunk egy hasonló problémát demonstrál.

KPMG DocCraft: a generatív AI üzleti alkalmazása

A vállalati szektorban egyre több figyelmet kap, hogy a generatív AI, pontosabban a nagy nyelvi modellek által nyújtott előnyöket hogyan lehetne biztonságosan és hatékonyan üzleti adatok elemzésére alkalmazni. Ebben a szellemben fejlesztettük ki elsősorban belső felhasználásra applikációnkat, amit KPMG DocCraft-nak nevezünk. Megoldásunk kifejezetten az üzleti adatbiztonság és az adatkinyerési pontosság igényeire válaszol. A rendszer lehetővé teszi az üzleti dokumentumok és adatbázisok felhasználását, így garantálva az információk integritását és biztonságát.

Ez mind szépen hangzik, de nincs termékfejlesztés konkrét üzleti igény nélkül: A mi esetünkben a KPMG ESG tanácsadói csapatát támogattuk, hogy hatékonyabban tudják feldolgozni a CSRD érettségi felméréshez tartozó ügyféldokumentumokat. Ennek az igénynek a támogatása teremtette meg a lehetőséget, hogy olyan terméket alkossunk, ami nem csak a demókon és kontrollált környezetben teljesít, de a mindennapi felhasználásban is segítséget jelent.

A KPMG DocCraft alapvetően eltér a széles körben ismert ChatGPT-től, mivel nem csupán általános információgenerálásra képes, hanem specifikusan üzleti dokumentumokon alapuló, releváns válaszokat biztosít. A vállalatok bizalmas információikat is biztonságosan feldolgozhatják, anélkül, hogy aggódniuk kellene az adatszivárgás vagy a nem tényszerű, „kitalált” válaszok, az ún. hallucináció jelensége miatt.

A KPMG DocCraft több mint egy intelligens kereső chat; számos további funkcióval bővíthető, amelyek segítségével az egyedi üzleti igényre szabott, szakterületekhez igazított válaszokat kaphat a felhasználó:

  • Finomhangolható az adott szakterületre, így a dokumentumok elemzése során specifikus ismeretekre is támaszkodik, ezzel hatékonyabb válaszokat generál.
  • Lehetőség van különböző szakértői perszónák alkalmazására (pénzügyi elemző, jogi tanácsadó), amelyek specifikus szakterületek nyelvezetével és szempontjaival generálnak válaszokat.
  • Terjedelmes üzleti jelentéseket, piaci elemzéseket és kutatási anyagokat is képes tömören és tárgyspecifikusan összefoglalni, kiemelve a legfontosabb információkat.
  • Intelligens keresőként szolgálhat belső adatbázisokban, ezzel kiváltva a kulcsszó alapú, statikus kereséseket.
  • Szabályozói, megfelelőség funkciójával kiértékeli, hogy egy jelentés megfelel-e a szabályozói elvárásoknak.
  • Intelligens fordítóként is funkcionál.

A jelen megoldás, nagy nyelvi modellek nélkül, nem tudta volna elérni azt a felhasználói élményt, amire a mindennapok során szükségünk van. A nagy nyelvi modellek által nyújtott flexibilitás mind szövegértelmezési, mind válasz generálási oldalon ellensúlyozza az addicionális technológiai komplexitást. Ezenkívül a nagy nyelvi modellekkel járó hallucinációt is csökkenteni tudtuk a fenti megközelítéssel.

Összességében mindkét felsorolt megközelítési mód alkalmas arra, hogy a saját kitűzött célját elérje. Mindkettő egy-egy a lehetséges megoldások közül, ugyanakkor tudatos szemlélet nélkül könnyen előfordulhat, hogy egy AI projekt nem éri el a számára kitűzött elvárásokat. Ezért fontos, hogy ne a hype vezesse a projektet előre, hanem az a cél, hogy megoldjuk az adott üzleti problémát.