ArhiBERT, alat za ekstrakciju sadržaja iz skeniranih ćiriličnih dokumenata zasnovan na BERT arhitekturi, kombinuje najbolje tehnologije iz domena veštačke inteligencije
Ogromna količina informacija uskladištena u brojnim elektronskim dokumentima trenutno je dostupna na mreži u strukturiranim i nestrukturiranim oblicima. Dostupne informacije tiču se najrazličitijih oblasti ljudskog interesovanja i angažovanja i predstavljaju izuzetno značajan resurs u procesu donošenja odluka na nivou kompanija. Kao takve, neretko se kombinuju sa informacijama koje nisu javno dostupne, već se čuvaju u internim arhivima kompanija. Svi pomenuti izvori informacija često skladište neophodne informacije u obliku skeniranih dokumenata, što otežava pretraživanje, analizu i korišćenje dostupnih informacija.
Za manuelnu obradu i analizu skeniranih dokumenata potrebna je značajna količina rada i vremena. Nasuprot tome, kompanije teže automatizaciji svake vrste obrade i pretrage dokumenata. Sadržaj dokumenata, u obliku „sirovog“ teksta, predstavlja suštinu svih savremenih automatskih alata, zasnovanih na nedavnim naprecima na polju veštačke inteligencije (AI). Iz tog razloga, automatizovana ekstrakcija, obrada i analiza informacija iz dokumenata postaje izuzetno značajna.
Po načinu na koji rešava Problem digitalizacije izvora na srpskom jeziku arhibert alat je jedinstven
Korpusi kvalitetnih tekstova predstavljaju nezamenjiv resurs zakreiranje modela veštačke inteligencije, kakve imamo prilike da koristimo u okviru popularnih aplikacija, poput ChatGPT-a, Geminija ili Claudea. Polazeći od stanja digitalizacije resursa pojedinačnih jezika, mnogi jezici, među kojima i srpski, imaju mali broj javno dostupnih kvalitetnih korpusa tekstova koji bi se koristili u svrhe treninga velikih jezičkih modela. Ovaj nedostatak mogao bi biti nadomešćen ukoliko bi se tekstovi ekstrahovali iz skeniranih dokumenata – kako javno dostupnih, tako i dokumenata koji predstavljaju arhivsku građu pojedinačnih kompanija. Tradicionalni pristup ekstrakciji sadržaja iz skeniranih dokumenata podrazumeva korišćenje alata za optičko prepoznavanje karaktera, koji takođe pripadaju grupi alata veštačke inteligencije. Iako su dugo u upotrebi, kvalitet ekstrakcije sadržaja alata za optičko prepoznavanje karaktera zavisi od kvaliteta skeniranog dokumenta, tj. kvaliteta štampe i pokazuje slabosti u slučajevima kada je sadržaj napisan pismom koje koristi simbole van engleskog alfabeta.
ArhiBERT alat
Po konceptu na koji rešava problem digitalizacije izvora na srpskom jeziku ArhiBERT alat je jedinstven. Za razliku od svih sličnih alata, ArhiBERT kombinuje najbolje tehnologije iz domena veštačke inteligencije – LSTM veštačke neuronske mreže za ekstrakciju sadržaja i tehnologiju izgradnje velikih jezičkih modela, specijalno pripremljenih za srpski jezik. Ovakva kombinacija obezbeđuje pouzdanu i automatizovanu digitalizaciju tekstova koji su trenutno teški za pronalaženje i ograničeno dostupni. Dodatno, arhitektura ArhiBERT-a će dozvoliti da se u perspektivi modeli razvijeni u okviru ovog alata mogu zameniti modelima iste ili slične arhitekture, ali treniranim na većem skupu podataka ili drugačijim metodama obuke. Ukoliko bi se sadržaj ekstrahovan kroz ArhiBERT alat indeksirao za potrebe pretrage i povezao sa originalnim dokumentima, to bi omogućilo efikasnu pretragu kompletne arhivske građe kojom raspolaže bilo koja pojedinačna kompanija, bez ugrožavanja integriteta podataka i bez izmene oblika u kome se arhivska građa trenutno nalazi.
ArhiBERT alat poseduje tri osnovna modula: modul korisničkog interfejsa, modul za ekstrakciju sadržaja iz skeniranih dokumenata i procenu kvaliteta ekstrakcije i modul za automatsko generisanje korekcije u slučaju neprecizne ekstrakcije sadržaja iz skeniranih dokumenata.
Modul korisničkog interfejsa implementiran je korišćenjem tehnologija koje omogućavaju korišćenje ArhiBERT sistema iz standardnih web čitača i omogućava upravljanje sledećim funkcionalnostima: odabir skeniranog dokumenta čiji je sadržaj neophodno ekstrahovati, prikaz ekstrahovanog sadržaja, prikaz detektovanog kvaliteta ekstrakcije sadržaja, definisanje granične vrednosti iznad koje se ekstrakcija sadržaja smatra pouzdanom (prag pouzdanosti), prikaz automatski generisanih sugestija za korekciju ekstrahovanog sadržaja.
Modul za ekstrakciju sadržaja i procenu kvaliteta ekstrakcije oslanja se na mehanizme optičkog prepoznavanja karaktera. U ArhiBERT-u u upotrebi je najkvalitetniji model otvorenog koda za optičko prepoznavanje karaktera koji ima podršku za detekciju i prepoznavanje ćiriličnog pisma – Tesseract OCR model. Neophodno je naglasiti da je ovaj model takođe baziran na modelima veštačkih neuronskih mreža koje su u prethodnim verzijama izvršavale ekstrakciju sadržaja iz slika na nivou slova. Od verzije 4 jezgro ovog modela koristi LSTM mrežu, koja omogućava ekstrakciju sadržaja na nivou reči. Ova karakteristika je od velikog značaja iz ugla arhitekture ArhiBERT alata, koji će sugestije za korekciju generisati na nivou reči.
Arhibert koristi tesseraCt oCr, najkvalitetniji model otvorenog koda za optičko Prepoznavanje karaktera, koji ima Podršku za detekciju i prepoznavanje ćiriličnog pisma
Modul za automatsko generisanje korekcije ekstrahovanog sadržaja predstavlja jezgro ArhiBERT alata i ujedno je najkompleksniji modul. Ovaj modul je implementiran kao duboka veštačka neuronska mreža, zasnovana na BERT arhitekturi, pri čemu je potrebno naglasiti da je model treniran za zadatak maskiranog jezičkog modelovanja (MLM). Preciznije, ovaj modul počiva na jezičkom modelu za srpski jezik posebno razvijenom za ArhiBERT alat. Maskirano jezičko modelovanje predstavlja jedinstven zadatak, koji je BERT arhitektura po prvi put uvela u domen obrade prirodnih jezika i koji se pokazao revolucionarnim za učenje konteksta i razumevanje jezika. MLM omogućava bidirekciono učenje korišćenjem delom maskiranog teksta i primoravanjem mreže da koristi reči i kontekst sa obe strane maskirane reči, sa ciljem predviđanja. Značajno je zapaziti da je ovaj način treniranja inspirisan ljudskim načinom zaključivanja i da je omogućio rešavanje problema obučavanja mašine da razume kontekst. S obzirom da je za ArhiBERT detekcija ispravne reči u odnosu na dati kontekst ključna, to čini predstavljenu arhitekturu, treniranu za opisani zadatak, najboljim izborom za rešavanje problema.
SrBERTa jezički model
Implementacija ArhiBERT alata koristi RoBERTa (eng. Robustly optimized BERT pretraining approach) arhitekturu – robustno optimizovan metod za treniranje sistema za obradu prirodnog jezika, koji je nastao sa ciljem poboljšanja i unapređenja BERT modela. Korišćenjem ove arhitekture, razvijen je SrBERTa jezički model – transformerski jezički model treniran za zadatak maskiranog jezičkog modelovanja ćiriličnih tekstova. Bitno je naglasiti da je treniranje SrBERTa modela dvofazno i da je model moguće prilagoditi potrebama pojedinačnih domena, poput književnosti, medicine, obrazovanja, legislative. Osnovna verzija SrBERTa modela trenirana je na javno dostupnom OSCAR skupu podataka, a validacija alata izvršena je verzijom modela koja je na osnovu javno dostupnih tekstova dodatno trenirana za domen legislative. Testovi su pokazali da je trenutna verzija sistema u stanju da otkloni do 88% neprecizno očitanih podataka korišćenjem Tesseract OCR alata, čime ovaj sistem u ogromnoj meri unapređuje kvalitet ekstrahovanih informacija.
0 komentara