F9 IJS in EGEE: Tehnologije grid v Znanosti

Računalništvo in informatika sta prinesla vrsto nepogrešljivih orodij za znanstveno delo. Poleg gole računske zmožnosti ("number crunching") uporabljamo orodja za simbolno računanje, ekspertne sisteme, metode Monte-Carlo in specializirane pakete za posamezne probleme, s katerimi je mogoče v relativno kratkem času opraviti zapletene račune. Toda če se lotevamo kompleksnih problemov, se moramo običajno kljub vsemu lotiti neposrednega programiranja na osnovni ravni. Vendar se je tudi pri tem nabor orodij zelo povečal: na voljo so različna razvojna okolja, programska ogrodja in specializirane programske knjižnice, s katerimi lahko učinkovito rešimo splošnejše dele problemov, čeprav je povezovanje več takšnih knjižnic lahko zelo zamudno. Internet je postal nepogrešljivo orodje za iskanje razpoložljivih orodij in knjižnic ter skupinski razvoj takšnih orodij, pri katerem sodelujejo raziskovalci in programerji z vsega sveta. Splošno dostopna prosta sistemska in programska oprema omogoča hitro uvajanje najsodobnejše programske opreme in razvoj ter prilagajanje sistemske opreme in omrežij.

V zadnjih dvajsetih letih je razvoj informacijske tehnologije prinesel velike spremembe na širokem področju družbene aktivnosti. Sodobni komunikacijski in informacijski servisi, ki temeljijo na računalniški tehnologiji, omogočajo vse hitrejšo izmenjavo informacij v digitalni obliki ter preprost in pregleden dostop do podatkovnih virov, ki so na voljo preko svetovnega spleta in različnih novejših tehnologij na osnovi svetovnega spleta. Hkrati pa struktura podatkov, njihova količina in heterogene zahteve za upravljanje z njimi predstavljajo vse večje izzive za postavitev sodobnih informacijskih sistemov, ki morajo omogočati kompleksne vzorce dostopa in uporabe in hkrati vsebovati mehanizme za overjanje uporabnikov ter avtorizacijo dostopa do podatkov in razpoložljivih računalniških kapacitet.

Algoritem kot posplošen matematični model

Fizika in z njo vse naravoslovne znanosti so v osnovi veščine opazovanja sveta in opisovanja pojavov z matematičnimi modeli. Ko se znajdemo pri vprašanju veljavnosti znanstvene teorije in matematičnega modela, je najbolj pošten odgovor, da teorija velja v kontekstih, kjer se njene kvantitativne napovedi skladajo z izmerjenimi vrednostmi. Glede na to, na kakšen način model napove izid eksperimenta, ločimo predvsem dve obliki modelov:

Analitični modeli in metode Monte-Carlo: Analitični modeli podajo opis sistema v obliki množice analitičnih izrazov (matematičnih enačb), na osnovi katerih je moč napovedati vedenje opisanega sistema in klasificirati različna območja v prostoru parametrov modela. Tipična področja fizike, ki uporabljajo takšne modele, so analitična mehanika, klasična termodinamika, Maxwellova elektrodinamika in splošna teorija relativnosti. Toda čeprav analitični modeli nudijo globok uvid v mehanizme narave, ne sežejo dlje od preprostih, omejenih sistemov.
Algoritmični modeli: Algoritmični modeli sistem opisujejo z algoritmom, ki zgradi sistem in vodi njegov časovni razvoj. Tak model je splošnejši od analitičnega modela, ker vanj lahko vnesemo različne odzive posameznih delov sistema v različnih kontekstih in ker razen strogih determinističnih pravil lahko uporabimo verjetnostno—statistična ali celo naključna pravila. V tem duhu delujejo generatorji osnovnih procesov in sistemi za opis interakcije delcev s snovjo v fiziki visokih energij. Algoritem je tudi jedro metod molekularne dinamike in kvantnih metod Monte-Carlo v fiziki trdne snovi. Metode Monte-Carlo se uporabljajo za izračun napovedi kompleksnih modelov, kjer ne poznamo analitične rešitve enačb ali pa je njihovo dosledno reševanje računsko prezahtevno. Namesto da bi sistem rešili v celoti, ga otipamo v mnogo naključnih točkah parameterskega prostora in na rezultatih opravimo statistično analizo.

V analitičnih modelih lahko iz izrazov, ki model podajajo, poiščemo osnovne lastnosti in različne tipe vedenja danega sistema. Pri algoritmičnem modelu je takšna klasifikacija zelo težavna. Ekstrakcija rezultatov in napovedi je zapleten proces, ki le redko vodi do preprostega povzetka. Razumevanje, ki izhaja iz takšne analize, je manj kompaktno, kot ga je moč doseči z analitičnimi modeli. Vključuje veliko implicitnih kontekstualnih odvisnosti v okviru interpretativne pojmovne mreže, ki se v jeziku izražajo s pogojniki ("če", "kadar", "za vrednosti x" ...). V šali bi lahko posplošili, da algoritmičen model daje več znanja in manj razumevanja.

Na področju merilne tehnike sta razvoj elektronike in standardizacija komunikacijskih protokolov omogočila kompleksnejše in hkrati preglednejše eksperimentalne postavitve. Že senzorji sami so pogosto opremljeni z elektroniko, ki omogoča nastavitev delovanja senzorjev, tako da lahko z računalnikom zelo natančno kontroliramo eksperimente ter usmerjamo zajem podatkov in njihovo shranjevanje. Pri poizkusih, kjer zajemamo samo majhen delež razpoložljivih podatkov, lahko s prožilnim kontrolnim mehanizmom z več ravnmi izvršimo natančen izbor zanimivih dogodkov in s tem omogočimo meritve pri mnogo večji frekvenci dogodkov, kot bi sicer dopuščala zahtevnost obdelave. Tako prožilni sistemi v sodobnih eksperimentih v fiziki visokih energij, kjer so zanimivi dogodki redki, omogočajo delovanje poiskusa pri frekvenci trkov 1 GHz in s frekvenco pisanja ter dokončne obdelave dogodkov reda 100 Hz.

Kompleksni algoritmični modeli in sodobne eksperimentalne postavitve kot svoj rezultat ponavadi ustvarijo velike količine delno obdelanih podatkov. Nadaljnja obdelava mora biti prepletena s sočasno z analizo rezultatov, da lahko rečemo, da smo iz golih podatkov iztisnili njihov znanstveni pomen. To zahteva hitre prenose velikih količin podatkov od senzorjev do podatkovnih skladišč in od podatkovnih skladišč do računalniške opreme za obdelavo, ter razvoj specializirane opreme za hitro vizualizacijo in analizo rezultatov meritev, njihovo obdelavo ter primerjavo s predvidenimi rezultati modelov. Kot končni produkt tako lahko ponudimo svojo prezentacijo in interpretacijo rezultatov. Brez računalniških orodij za obdelavo podatkov in vizualizacijo bi bili ob takšnih nalogah popolnoma nemočni.

Z uporabo računalnikov in informacijskih tehnologij smo tako v znanosti kos zapletenim matematičnim modelom in kompleksnim eksperimentalnim podatkom. Toda šele ko obe področji natančno proučimo, lahko govorimo o skladnosti napovedi teorije z izmerjenimi podatki. Resen problem analize kompleksnih sistemov je dejstvo, da pojmi teorije in objekti meritve niso več jasno razvidni in da za razumevanje sodobnih znanstvenih dosežkov potrebujemo širok interpretativni sistem, v katerem pomembno vlogo igra tudi sam postopek analize podatkov.

Primer iz fizike visokih energij

V fiziki visokih energij so računalniške gruče in kompleksni elektronski sistemi osnovno orodje pri izvedbi eksperimentalnih postavitev ter pri analizi podatkov in izračunavanju napovedi fizikalnih modelov, ki so po svoji naravi globoko algoritmični. Organizacija in izvedba sodobnih eksperimentov zahteva velike mednarodne kolaboracije, v katerih sodeluje po sto institucij in več tisoč znanstvenikov. Razpršenost delovnega okolja in financiranja neposredno vodita tudi v porazdelitev informacijske infrastrukture, tako da je za takšne kolaboracije že danes eden do ključnih problemov dostopanju do računalniških kapacitet, ki so razpršene preko Evrope in ZDA, v zadnjem času pa tudi preko Azije in Avstralije.

Dodaten problem predstavlja ogromna količina podatkov, s katerimi razpolaga kolaboracija. Prihajajoča generacija eksperimentov Velikega hadronskega trkalnika v Cernu bo proizvajala približno 1 PB podatkov na leto in približno 30 PB v življenjskem ciklu eksperimenta (za zapis 1 PB podatkov bi potrebovali 1,5 milijona CD medijev). Zaradi izjemne količine teh podatkov ne bo mogoče hraniti in obdelovati v enem samem velikem računalniškem centru. Ozko grlo predstavlja tudi mrežna infrastruktura, saj takšnega toka podatkov ne moremo v celoti poslati preko Interneta več kot enkrat, torej iz centra, kjer poteka eksperiment, v računalniški center, kjer so podatki dejansko skladiščeni. To pomeni, da bo treba po naročilu različnih raziskovalnih organizacij izvajati obdelave podatkov v centrih, ki podatke skladiščijo, tako da se bodo preko preobremenjenega omrežja pretakali samo končni rezultati.

Znanstvenik, ki bo v takem okolju opravljal analizo, bo moral uporabljati šibko sklopljeno heterogeno mrežo računalnišhih centrov. Vsak center bo načeloma imel le del za analizo potrebnih podatkov, zato bodo morali imeti člani posamezne kolaboracije dostop do vseh računalniških centrov, infrastruktura pa bo morala omogočati natančen nadzor nad dostopanjem do podatkov in do uporabe računske moči s sistemi za razporejanje obremenitev in za določanje, kakšne operacije lahko posamezen uporabnik opravlja na sistemih za masovno skladiščenje podatkov. Stvar bi bila relativno enostavna, če bi bili centri homogeni in namenjeni izključno posamezni kolaboraciji, vendar v praksi veliki inštituti in univerze nimajo na voljo več računalniških centrov - vsa oprema se steka v enotno okolje, v katerem dostop uporabnikom dodeljujejo z administrativnimi procedurami in s posebno programsko opremo razporejajo obremenitev porabe računske moči in skladiščenja podatkov.

Oris tehnologije grid

V zadnjih letih je na področju računalniške strojne in mrežne opreme prišlo do premika paradigme, ki ponuja rešitev teh problemov: namesto izoliranih računalniških centrov, opremljenih s superračunalniki, danes srečujemo vse več računalniških gruč, sestavljenih iz nekaj deset do nekaj tisoč cenovno dostopnih osebnih računalnikov. Takšne gruče izkoriščajo naraščanje cenenih kapacitet osebnih računalnikov in so preprosto razširljive v skladu s potrebami uporabnikov ter z zahtevami in zmožnostmi zunanjega računalniškega okolja, poleg tega pa lokalnim uporabnikom omogočajo neposreden in hiter dostop do računalniških kapacitet v fazi razvoja in preizkušanja novih programskih rešitev.

Resničen problem pa je povezovanje računalniških gruč, ki pripadajo različnim geografsko ločenim raziskovalnim skupinam, v enotno računalniško infrastrukturo, namenjeno reševanju skupnega problema. Za uspešno in učinkovito rešitev tega problema je treba izpolniti vrsto predpogojev:

Tehnologije, ki omogočajo takšno povezovanje računalniških kapacitet in uporabnikov, danes označujemo s skupnim imenom tehnologije grid. Prve ideje zanje so prišle iz naravoslovnih znanstvenih skupnosti, izredno velik interes za uporabo teh tehnologij prihaja tudi s strani medicine, farmacije, biotehnologije in nanotehnologije ter drugih razvojno usmerjenih vej industrije, saj bodo tehnologije grid omogočile racionalnejšo uporabo sredstev in zmanjšanje interne računalniške infrastrukture.

Za razvoj tehnologij grid se je oblikovalo nekaj organizacij, npr. Globalni forum za grid (Global Grid Forum, http://www.gridforum.org/) in Zveza Globus (Globus Alliance, http://www.globus.org/), Inteligrid (http://www.inteligrid.com/), v Sloveniji Grid Forum (www.gridforum.si). Toda tako kot "svetovni splet" je tudi "grid" zgolj krovno ime za množico protokolov, informacijskih strežnikov in programskih knjižnic, sam "grid" pa bi lahko imenovali okolje za razpredeno izvajanje opravil. Tehnologije grid so še v zgodnji fazi razvoja, tako da obstaja več različnih protokolov in programskih paketov, ki so različno primerni za posamezne vrste uporabe. Na osnovi teh protokolov in standardov nastajajo aplikacije, s katerimi bomo uporabniki do servisov grid dostopali podobno, kot danes s pomočjo brskalnikov uporabljamo servise svetovnega spleta. Preizkušanje, standardizacija, razvoj aplikacij in vnos teh novih tehnologij v produkcijska okolja poteka neprekinjeno, in projekt EGEE je pomemben organizacijski okvir tega dogajanja v Evropi in zunaj nje.

Tehnologije grid in spremljajoča raziskovalna področja obetajo velik napredek informacijskih tehnologij v prihodnjem desetletju. Na njihovih ramenih bodo lahko zrasli sodobni mehanizmi informacijske družbe, ki bodo omogočali prost dostop do znanja ter visoko stopnjo povezanosti, ki bo pospeševala trend selitev aplikacij z osebnih računalnikov v omrežne gruče. V očeh Evropske unije je enovita informacijska infrastruktura nujen pogoj za zagotovitev konkurečnosti evropske znanosti, šolstva in gospodarstva v svetovnem merilu, zato Evropska skupnost aktivno podpira razvoj tehnologij grid.

F9 IJS v projektu EGEE

Tehnologije grid v znanosti

Algoritem kot posplošen matematični model

Primer iz fizike visokih energij

Oris tehnologije grid