Važnost ovog problema za poslovanje proističe iz činjenice da su za preduzeće svi ti prikupljeni sadržaji potencijalno korisni. Zapravo, oni predstavljaju jedan od osnovnih resursa koji preduzeću omogućava pouzdano planiranje i upravljanje poslovanjem. Koncept upravljanja na osnovu podataka i njihove statističke obrade odavno je trijumfovao nad prethodno korišćenim intuitivnim tehnikama (pri tome ne sumnjamo u vrednost intuicije edukovanog menadžera!). S obzirom na uvodnu konstataciju o porastu volumena, moglo bi se pomisliti da preduzeće samim rastom obima sadržaja koje obrađuje postaje „bogatije“. Možda bi ova tvrdnja imala nekog smisla da se ovo ne događa svima – hteli ne hteli. Korist za sebe iz ove digitalne revolucije mogu da izvuku samo oni koji su sposobni da ovim sadržajima efikasno upravljaju i da iz njih izvuku zaključke koji vode ispravnim poslovnim odlukama. Da bi se preduzeće (i pojedinac!) osposobilo za ovo novo doba, neophodno je da savlada nove tehnike prikupljanja, obrade i postupaka izvlačenja korisnih i pouzdanih zaključaka korišćenjem statističkih metoda i alata. Takođe, da u potrazi za korisnim sadržajima „zaviri“ izvan granica sopstvenog preduzeća: na internet. A tamo tek počinju stvarni problemi…
Zašto tehnički? Da citiramo [druga] Lenjina: kvantitet je sam po sebi kvalitet. Dakle, ne možete naraslim volumenom raznovrsnih digitalnih sadržaja upravljati korišćenjem starih tehnika i alata. Nije dovoljno da proširite, na primer, sistem za skladištenje podataka novim diskovima (uzgred rečeno, danas vrlo jeftinim).
Problem kroz primere
Jedno od vodećih proizvodnih preduzeća u Srbiji naručilo je od COMING‑a analizu sadržaja kojim mora da upravlja, predlog implementacije platforme za upravljanje i predikciju rasta u narednih nekoliko godina. Rezultati: volumen sadržaja se od 1992. godine do danas povećao više od 100.000 puta (!) – na preko 100 TB. Komentar: ništa se u tom preduzeću u poslednjih 20 godina nije uvećalo po toj stopi! Više od 80% sadržaja je nestrukturirano ili polustrukturirano – pre dvadesetak godina bilo je obrnuto. Multimedijalni sadržaji rastu daleko najbrže, a pre dvadesetak godina ih praktično nije bilo… Zaključak: postojeće tehnike neadekvatne su, pre svega u domenu „izvlačenja“ korisnih informacija iz prikupljenih sadržaja. Takođe, izuzetno je teško upravljati životnim ciklusom podataka (sadržaja) i obezbediti poštovanje rastućeg broja zakona i drugih akata koji regulišu postupke, prava korišćenja, verodostojnost i rokove čuvanja sadržaja.
Prethodno navedeni primer se, pri tom, nije bavio najbrže rastućim izvorom sadržaja: podacima automatski prikupljenim sa senzora (proizvodnih mašina, logističkih uređaja i sl.), iz drugih uređaja (log‑fajlovi – dnevnici), ponašanja korisnika internet sajtova (tzv. click stream analiza). Uključivanje ovih podataka u standardni set sadržaja više nije samo potrebno već u mnogim slučajevima i obavezno (na primer: dokazivanje sledljivosti u proizvodnji, poštovanja/narušavanja prava pristupa i slično).
Drugi primer: COMING‑ov projekat implementacije nove aplikacione/informacione infrastrukture u jednom od vodećih ruskih maloprodajnih lanaca, specijalizovanih za modnu industriju. Obim transakcija na nivou godine u POS sistemu (na kasama u prodavnici): 150.000.000 računa s prosečno 3 kupljena proizvoda – 500.000.000 prodatih jedinica u toku godine! Ukupno oko 300.000 SKU! Pri tom sve transakcije moraju ostati zapamćene, ne samo u toku finansijske godine veće stalno (na neograničeno vreme!). Ovaj sadržaj koristi se za planiranje nabavke i snabdevanja prodavnica i mora da funkcioniše u realnom vremenu. Dakle, sposobnost preduzeća da planira i izvršava logističke operacije bez kašnjenja uslov je daljeg razvoja, ako ne i opstanka biznisa – konkurencija radi isto.
Naravno, ovo nisu nikakvi izuzeci. Navedeni problem uočen je globalno pre više godina, a tehnike njegovog savlađivanja danas se opštim imenom nazivaju: Big Data – prevod nije nužan.
Šta umesto tradicionalnih rešenja?
Sam pojam je vrlo širok i ovde se nećemo baviti njegovim definisanjem. Ukazaćemo samo na neke aspekte i tehnike koje mogu da donesu značajne koristi onima koji ih praktikuju.
Prvi primer, koji ukazuje na rast volumena nestrukturiranih sadržaja i sadržaja koji se automatski prikupljaju sa raznih uređaja i interneta, zapravo je povezan s tehnikama obrade koje su se poslednjih godina pojavile: baze podataka za nestrukturirane saržaje i njihovu obradu. Uobičajeno je da se takve tehnike nazivaju NoSQL, mada se često kombinuju sa standardnim alatima za obradu koji su u upotrebi već više desetina godina (SQL) i nazivaju se NewSQL. Takođe, alati su prilogođeni, kako zbog ogromnog volumena i zahtevanih performansi, tako i zbog potrebe de se obezbedi otpornost prema otkazivanju, takozvanoj distribuiranoj obradi podataka (Google map‑reduce paradigma i Hadoop kao otvorena platforma). Ove nove tehnike postavile su brojne izazove pred tradicionalno korišćene proizvode, koji nisu u stanju da pruže odgovor u pogledu volumena i performansi (a da ne govorimo o ceni!). S druge strane, od korisnika se zahtevaju nova znanja i investicije. Nije čudo što se kao odgovor pojavio čitav niz isporučilaca koji usluge obrade i čuvanja podataka pružaju u oblaku računara (o ovoj paradigmi pisali smo detaljno u prethodnom broju). Na ovaj način se u ogromnoj meri smanjuje volumen novih znanja kojima preduzeće‑korisnik mora da ovlada i potpuno se eliminišu početne investicije. Naravno, ove usluge imaju svoju cenu, koja, rekli bismo, pod pritiskom konkurencije postaje sve razumnija i sve privlačnija.
Drugi primer ukazuje na ogroman volumen strukturiranih sadržaja (POS transakcije). Tradicionalna rešenja ni ovde nisu dovoljno dobra. S jedne strane, ona vode složenoj arhitekturi rešenja (čitaj: visokoj ceni implementacije i održavanja), a s druge strane ne obezbeđuju mogućnost upravljanja poslovanjem u realnom vremenu. Drugim rečima: daj mi rezultat odmah, u roku od nekoliko sekundi! Možda ovo nije neophodno, pod uslovom da je konkurencija još sporija od vas. Tehničkim žargonom rečeno, ovde se radi o konvergenciji OLTP (transakcionih) i analitičkih sistema (OLAP) u jedinstvenu platformu, sposobnu da obezbedi bilo koji tip obrade podataka u realnom vremenu.
Jedno radikalno novo rešenje/platforma koja se pojavila kao odgovor na rastući volumen transakcionih i polustrukturiranih (tekstualnih) podataka je SAP HANA – koja koristi niz standardnih industrijskih servera kao osnovu za upravljanje bazama podatka (veličine koja se meri stotinama terabajta) i njihovu statističku obradu (integracija sa otvorenom statističkom plaformom „R“). SAP je HANA platformu napravio tako što je iz temelja izgradio novo rešenje.
Naravno, ni konkurencija ne ostaje dužna – pomenućemo samo novo izdanje Microsoft SQL Server 2014 platforme i mogućnost upravljanja bazama podataka potpuno uskladištenim u operativnoj memoriji servera. O HANA plaformi i drugim naprednim tehnikama biće reči u narednim brojevima, jer radi se o temeljnim promenama paradigme, poput virtuelizacije i cloud computing‑a.
Naučna obrada podataka
Da bi se nove platforme koje korisnicima stoje na raspolaganju (kao sopstvene ili iznajmljene u oblaku računara) mogle uspešno koristiti, neophodan je još jedan sastavni element: statistički način razmišljanja (staistical thinking/learning). Drugim rečima, korišćenje naprednih alata (ili najam usluga statističke obrade) koji omogućavaju klasifikaciju i izvlačenje korisnih informacija iz ogromnih skupova podataka (data mining), korišćenje stabala odlučivanja, klasterizacije, nadgledanog i nenadgledanog učenja, regresione analize i drugih manje egzotičnih tehnika.
Srećom, nije neophodno da zaposleni u preduzeću postanu profesionalni statističari (iako se sve više traži novo zanimanje: data scientist). Sve je više alata koji su, iako statistički napredni, jednostavni za rukovanje i daju razumljive i odmah upotrebljive rezultate. Pomenuli smo „R“, a dodaćemo i HANA biblioteku za prediktivnu analizu podataka, paket za analitičku obradu podataka iz SAP ERP (AF).
Ovim člankom smo samo zagrebali po površini i otvorili čitav niz tema kojima ćemo se ubuduće baviti, samo s jednim ciljem na umu: da korisnicima prikažemo mogućnosti koje im stoje na raspolaganju u ovladavanju lavinom digitalnih sadržaja koji im se svakodnevno sručuju na glavu. Pri tome nije važno samo preživeti (sačuvati i potom pronaći neki sadržaj) već i postati pametniji – izvući iz raspoloživih sadržaja zaključke korisne za upravljanje poslovanjem i pobedu nad konkurentima.
Miroslav Kržić
0 komentara