Beszélt és írott magyar szöveg feldolgozását lehetővé tevő modellt építettek a Pécsi Tudományegyetemen

forrás: Prím Online, 2021. augusztus 27. 12:55

Mindenki szívesebben használja az anyanyelvét chat és más automatizált alkalmazásokban. Mivel azonban a magyar nyelvet mindössze 15 millióan beszélik világszerte, a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvereket. A Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata felismerve ezt a problémát a Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítette és betanította saját BERT-large modelljét magyar nyelven, méghozzá kevesebb, mint 200 munkaóra és 1000 euró befektetésével.

A Pécsi Tudományegyetem számára kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás, amióta partnerkapcsolatot építettek ki a Microsoft Mesterséges Intelligencia Tudásközpont program keretein belül 2019-ben.

A nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű BERT-large modell (HILBERT) létrehozása jelentette, ami egy nyílt forráskódú gépi tanulás keretrendszer. A modell célja, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához.

“A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta el Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke. Ráadásul a csapat már ismerte az Azure szolgáltatást, ez is egy érv volt mellette.

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterséges intelligencia modellek építésével, munkába állításával, menedzsmentjével és nyomonkövetésével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint például az adatkezelés.

A modell működéséhez egyébként legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges, ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott.

“200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte büszkén Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. “Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívja fel a figyelmet.

A Pécsi Tudományegyetem BERT-large modellje jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT közreműködhet újabb, jobb teljesítményű chatbotok létrehozásában is.

Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid-19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt.

A projekt teljes ismertetője ezen a linken olvasható.

Kulcsszavak: mesterséges intelligencia Microsoft Azure Pécsi Tudományegyetem Microsoft

Kapcsolódó cikkek

További kapcsolódó cikkek...

Megoldás ROVAT TOVÁBBI HÍREI

Jön az év legnagyobb innovációs és startup fesztiválja

A 2015-ben indult Startup Safari Budapest hazánk egyik legnagyobb startup konferenciájaként idén ismét megnyitja kapuit, június 11-én 12 helyszínen közel 100 előadással és interaktív programmal várja az érdeklődőket, melynek során számos hazai szakember mellett nemzetközi előadókkal élőben is lehet majd találkozni és kérdezni tőlük. Nemcsak üzleti, hanem mélyebb technológiai és innovációs témákkal foglalkozik az esemény, angol és magyar nyelven egyaránt.

2024. május 16. 19:47

Teljes mértékben napenergiával működtethető a Lenovo üllői gyárának innovációs központja

Új, a nagy teljesítményű számítástechnikai (HPC) innovációkat ellátó napelemeket telepített a Lenovo üllői gyártóüzeme. A vállalat 2023 októberében átadott létesítményében működő globális innovációs központja ezáltal azt is biztosítja, hogy az ügyfelek 100%-ban napenergiával tesztelhessék a HPC-munkaterhelést.

2024. május 16. 14:43

Így működnek majd a távfelügyelt boltok

A közelmúltban jelentették be, hogy rövidesen Magyarországon is elindulnak az első úgynevezett „hibrid” boltok, melyek nappal a ma ismert formában, a megszokott nyitvatartási időn kívül pedig személyzet nélküli üzemmódban várják a vásárlókat. A lehetőség technikai feltételeiről, illetve a használatának módjáról a megoldást fejlesztő Laurel Kft. május 15-i retailkonferenciáján közöltek részleteket.

2024. május 16. 13:01