logo F9 IJS logo EGEE

F9 IJS v projektu EGEE

Projekt EGEE

V okviru EU že od leta 1994 pod skupnim imenom Tehnologije informacijske družbe (http://www.cordis.lu/ist/, Information Society Technologies — IST) potekajo različni projekti, ki naj bi združili porajajoče se sodobne računalniške in informacijske infrastrukture v enoten evropski informacijski sistem, ki bo v zaključni fazi omogočal poljubno povezovanje znanstvenih centrov, izobraževalnih ustanov, državnih organizacij ter gospodarskih partnerjev.

Šesti okvirni program EU (http://cordis.europa.eu/fp6/, 2002-2006) je v okviru prvega dvoletnega projekta EGEE oziroma Vzpostavitev omrežij grid za E-znanost (EGEE, Enabling Grids for E-SciencE, http://public.eu-egee.org/) vključeval vzpostavitev pilotnih implementacij omrežij grid v znanosti, medicini in industriji, ki so omogočile nadaljnji razvoj in standardizacijo tehnologij grid ter po uvajanju te tehnologije v prototipna produkcijska okolja (med drugim v Sloveniji na grozdu SiGNET v okviru dela odseka F9 IJS) omogočila realistično testiranje in zgodnjo uporabo tehnologije, kar je postalo izhodišče za oblikovanje standardov, prilagoditev implementacij in razvoj aplikacij za omrežja grid.

V okviru Sedmega okvirnega programa EU (http://cordis.europa.eu/fp7/, 2006-2010) in nadaljevanja projekta EGEE kot dvoletnega projekta EGEE-II oziroma Vzpostavitev omrežij grid za E-znanost II (EGEE II, Enabling Grids for E-SciencE II, http://www.eu-egee.org/), ki ga prav tako financira Evropska komisija v sodelovanju s partnerji, nastaja zanesljiv in stalno dostopna storitev infrastrukture grid v Evropi in svetu.

img/egee_map.jpg

Države članice projekta EGEE

Projekt EGEE ni omejen na članice Evropske unije, sodelujejo tudi centri v Združenih državah in Rusiji ter v Avstraliji.

Prvi del evropskega razvoja tehnologij grid (razvoj in priprava osnovnih protokolov in standardov za vzpostavitev omrežij grid na področju Evrope) je potekal v okviru triletnega projekta DataGrid (http://eu-datagrid.web.cern.ch/eu-datagrid/), ki je bil marca 2004 uspešno zaključen. V okviru projekta so bila pripravljena programska orodja in aplikativni vmesniki za uporabo koncepta virtualnih organizacij, za upravljanje z velikimi količinami podatkov in njihovimi kopijami ter za dostopanje do računskih zmogljivosti oddaljenih računalniških gruč.

Projekt EGEE oziroma Projekt Vzpostavitev omrežij grid za E-znanost (EGEE, Enabling Grids for E-SciencE, http://public.eu-egee.org/) je nujni naslednji korak v razvoju tehnologij grid v Evropi: v okviru projekta EGEE, ki združuje strokovnjake in institucije več kot 27 držav (http://public.eu-egee.org/about/partners/), financira pa ga Evropska komisija v sodelovanju s partnerji, nastaja zanesljiva in stalno dostopna storitev infrastrukture grid v Evropi. Osnovni namen projekta EGEE, ki je stekel 1. aprila 2004, in njegove druge dvoletne faze EGEE-II (od 1. aprila 2006) je združiti nacionalne, regijske in tematske inciative grid v enotno evropsko informacijsko infrastrukturo, podprto s kompatibilnimi in standardiziranimi storitvami in protokoli grid. Ta infrastruktura bo služila razvoju in strukturiranju enotnega Evropskega raziskovalnega območja in bo hkrati nudila model pri vzpostavitvi gospodarskih in družbenih informacijskih storitev nove generacije. Projekt pa se je razširil daleč preko meja Evropske skupnosti in poleg drugih evropskih držav vključuje tudi partnerje iz Ruske federacije, Združenih držav Amerike itd. EGEE postaja osnova za nastanek svetovne infrastrukture za znanostveno-raziskovalna omrežja grid.

Polovico stroškov projekta po pogodbi IST-2003-508833 zagotavlja Evropska skupnost, drugo polovico pa krijejo regionalne iniciative za vzpostavitev mrež grid ter znanstveno-raziskovalni projekti, ki bodo tehnologije uporabljali v zgodnji fazi. V primeru F9 IJS sredstva z regionalnih virov zagotavljata IJS iz raziskovalnih projektov in Republika Slovenija v okviru ciljnega razvojnega programa (CRP) Konkurenčnost Slovenije 2001-2006". EGEE predstavlja referenčni projekt EU za razvoj standardov in pilotnih produkcijskih postavitev grid in je sestavljen iz dveh faz, dveh zaporednih dvoletnih projektov.

Dve fazi projekta EGEE

Prva dvoletna faza projekta EGEE je bila vzpostavitev prototipnega sistema grid v vsej Evropski uniji in pilotni prenos tehnologij in storitev, razvitih v dosedanjih projetkih, v produkcijsko okolje, kar bo zagotovilo pogoje za testiranje, prilagajanje in izboljšanje rešitev vse do finalizacije storitev in standardov tehnologije grid na ravni posameznih znanstvenih in gospodarskih disciplin.

Pilotni prenos v dejansko uporabo je bil za projekt EGEE bistvenega pomena, ker so tehnologije grid še v zgodnji fazi razvoja in je zato nujno potrebno testiranje z dovolj veliko skupino dovolj različnih uporabnikov in problemov, ki podajajo zahteve in specifikacije za storitve grid, ter tehnologijo tudi uporabljajo in s tem testirajo implementacijo in infrastrukturo. V projektu EGEE je bil za pilotsko vzpostavitev izbran projekt Računalniški grid za veliki hadronski trkalnik (LCG, Large Hadron Collider Computing Grid, http://lcg.web.cern.ch/LCG/) s področja fizike osnovnih delcev, že v preikusni fazi pa se vključujejo tudi druga področja, npr. astrofizika, astronomija, biokemija, biomedicina, genetika in medicina.

Diametralno nasprotni pristopi k uporabi tehnologij grid

Tehnologije grid so dobile prizvok privlačne tehnologije prihodnosti. Prišlo je do zelo različnih pristopov k implementaciji in uporabi takšnih tehnologij, hkrati pa je marsikdo ta pojem začel uporabljati tudi v širšem pomenu za vse sodobne sisteme za souporabo računalniških zmogljivosti s pomočjo globalnega omrežja (Inerneta), kot sta, na primer, razpršeni računalniški sistemi (distributed computing, npr. sistemi, kot so Seti@Home, in sistemi peer-to-peer, npr. razžlični sistemi za distribucijo datotek). Čeprav ti sistemi res izkoriščajo razpršene računske, omrežne in diskovne poteniciale številnih različnih računalnikov v omrežju, pa ne prinašajo prednosti virtualnih organizacij in standardiziranih kontrolnih sistemov, ki so v osrčju tehnologij grid. Tehnologije grid stremijo k standardizaciji, prenosljivosti in medopravilnosti, medtem ko so distribuirani računalniški sistemi večinoma ozko namenski.

Toda tudi v okviru samih tehnologij grid prihaja do razhajanja: medtem ko so na področju fizike osnovnih delcev zaradi zahtev po izrednih zmogljivostih na področju količine podatkov in procesorskih zmožnosti vmesniki optimizirani za čim hitrejše izvajanje kode čim bolj neposredno na ravni operacijskega sistema (native code systems) so za druge načine uporabe pomembejše prenosljivost (tako najnovejša razkličica Globus Toolkita deluje predvsem na ravni spletnih storitev) ali bogat, strukturiran in organiziran pristop do podatkov (npr. projekt HEAVEN, ki integrira sisteme medicinskih in zdravstvenih podatkov o pacientih, boleznih in poteku zdravljenja).

Kljub tem razlikam ostaja skupni imenovalec vseh implementacij tehnologij grid povečan izkoristek računalniških in omrežnih zmogljivosti, drastično olajšanje sodelovanja med različnimi organizacijami tako na področju souporabe zmogljivosti kot na področju souporabe podatkov in drugih virov ter povečana uporaba zmogljivosti sodobne računalniske opreme in omrežne infrastrukture.

Osnovni problem obeh pilotskih implementacij je bil omogočiti kontroliran dostop do geografsko razpršenih podatkov in računskih zmogljivosti, največja razlika pa je v tem, da je pri projektu LCG poudarek predvsem na velikih količinah podatkov in neposredni računski moči računalniških gruč, pri drugih projetkih pa so lahko poudarki drugačni, npr. pri obdelavi biomedicinskih podatkov je v ospredju varovanje osebnih podatkov pacientov in kompleksna interatkivna obdelava. Hitro uvajanje drugih področij torej zagotavlja, da bodo rešitve dovolj splošne za širok krog uporabnikov in zelo različne probleme.

Prva faza projekta EGEE je omogočila prehod v drugo dvoletno fazo: prenos tehnologije in storitev grid s pilotskih postavitev na širše področje uporabe v različnih disciplinah. Kot prednostne discipline v okviru Šestega okvirnega programa EU so navedene astrofizika, biologija, računska kemija, geofizika, podnebne analize, opazovanje Zemlje, e-učenje in elektronske knjižnice. V okviru Sedmega okvirnega programa, ki je okvir druge faze EGEE, gre torej dejansko za prehod v splošno uporabo dozorele tehnologije grid in omrežja grid, ki ga je vzpostavil projekt EGEE v Evropi in svetu.

LHC, Atlas in LCG

Področji fizike osnovnih delcev in fizike visokih energij iz leta v leto uporabljata večje nabore podatkov in zahtevnejše računske metode, poleg tega pa zaradi stroškov tovrstnih raziskav prihaja do vse bolj zapletenih mednarodnih raziskovalnih kolaboracij. Zato to področje že nekaj časa izkorišča najnovejše pridobitve informacijske tehnologije in tudi sodeluje pri razvoju novih tehnologij - najbolj znan primer tehnologije, ki je nastala kot pripomoček pri tovrstnih kolaboracijah, je prav svetovni splet, ki je nastal leta 1990 v Evropskem laboratoriju za fiziko delcev CERN (http://www.w3.org/History.html) in je omogočil učinkovito sodelovanje in širjenje informacij v znanstveni skupnosti, kmalu pa je postal tudi globalen fenomen.

V zadnjih letih struktura in količina podatkov v eksperimentih fizike visokih energih še naprej narašča, kar povzroča vse večje potrebe po računskih zmožnostih in skladiščenju podatkov ter iskanju in dostopnju do specifičnih podatkov v razpršenih podatkovnih skladiščih. Največji in najbolj značilen primer je projekt Velikega hadronskega trkalnika (Large Hadron Collider, LHC, http://lhc-new-homepage.web.cern.ch/lhc-new-homepage/) v Evropskem laboratoriju za fiziko delcev CERN v Ženevi, (http://public.web.cern.ch/public/), naslednik pospeševalnika LEP (Large Electron-Positron Collider, Veliki elektronsko-pozitronski trkalnik, ki je deloval od l. 1989 do 2000), ki je bil z obsegom 27 km največji pospeševalnik na svetu. Na velikih pospeševalnikih hkrati teče več eksperimentov, ki med seboj delijo infrastrukturo in skupaj izkoriščajo raziskovalni potencial trkalnika, analiza podatkov pa lahko daje zanimive rezultate še dolgo po koncu zajemanja podatkov (kot npr. pri eksperimentih LEP). Na Velikem hadronskem trkalniku bo teklo pet eksperimentov: ALICE (A Large Ion Collider Experiment, http://alice.web.cern.ch/), CMS (The Compact Muon Solenoid, http://cmsinfo.cern.ch/) LHCb (Large Hadron Collider beauty, http://lhcb-public.web.cern.ch/), TOTEM (Total Cross Section, Elastic Scattering and Diffraction Dissociation, http://totem.web.cern.ch/) in ATLAS (A Toroidal LHC Apparatus, http://atlas.web.cern.ch/), kjer kot član raziskovalne kolaboracije že več kot desetletje let sodeluje tudi raziskovalna skupina z odseka za fiziko visokih energij (F9 IJS, http://www-f9.ijs.si/) Instituta "Jožef Stefan". Razlika med zahtevami po informacijski infrastrukturi pospeševalnika LEP, kjer je ob posameznem trku nastajalo približno 1500 delcev, in LHC, kjer bo nastajalo cca. 50 000 delcev na trk, vsak od eksperimentov LHC pa bo proizvajal cca. 1 PB na leto (30 PB v celotnem življenjskem ciklu eksperimentov), je velikanska.

Postalo je očitno, da rešitev tega problema ponujajo prav tehnologije grid. Zaradi podobnih zahtev in skupnega interesa kolaboracij LHC je v CERN-u nastal projekt LHC Računalniški Grid (LHC Computing Grid ali LCG, http://lcg.web.cern.ch/LCG/), katerega namen je zagotoviti in standardizirati kompatibilne in dovolj zmogljive storitve grid po vsem svetu in s tem združiti znanstvene računalniške centre sodelujočih institucij iz Evrope, Amerike, Azije in Avstralije v enotno virtualno računsko organizacijo.

Tehnologije Grid in LHC Computing Grid

Kocept tehnologije Grid se je rodil v devetdesetih, prva širša postavitev pa je nastala leta 1994, ko so pripravili povezavo lokalnih ameriških gruč v Argonne National Laboratory in v Electronic Visualization Laboratory na University of Illinois v Chicagu, ki je delovala med konferenco Supercomputing '95. Implementirali so komunikacijske protokole, ki so uporabnikom z različnih oddaljenih sistemov omogočili zaganjati aplikacije na gručah v obeh ustanovah. Uporabljali so že osnovne abstraktne koncepte tehnologij Grid, ko so npr. virtualne organizacije in sistemi javnih ključev. Eksperiment je uspel in dobili so ameriške nacionalne finančne vire (DARPA), s katerimi so leta 1997 razvili prvo različico programskih vmesnikov, ki so dobili ime Globus Toolkit. Med pomembnimi podporniki sistema je bil v Združenih državah najopaznejši DOE (U.S. Department of Energy).

Globus Toolkit http://www-unix.globus.org/toolkit/ je gradil na obstoječih tehnologija, njegov najpomembenji doprinos pa je uveljavitev osrednjega koncepta tehnologije Grid: virtualne organizacije (VO). Globus Toolkit v svojih prvih različicah kombinira elektronska potrdila in obstoječe internetne protokole (ftp, http), ter jih nadgrajuje, da lahko delujejo kot del implementacije podatkovnih in računskih storitev grida. Starejše ražličice so bile prepričljiiva tehnološka demonstracija, vendar so imele vrsto pomanjkljivosti, ki so ovirale uporabo v praksi. Razlicica 3.2 predstavlja tehnološko bazo in skupno osnovo, na kateri temeljijo drugi sodobni paketi. Zadnje različice pa kombinirajo tehnologije Grid s konceptom spletnih tehnologij, zlasti strežniških komponent (servlets) in programskega jezika Java, zato so manj zanimive za uporabo v znanosti in raziskavah - zdi se, da so namenjene predvsem komericalni uporabi v informacijskih tehnologijah. Njegov logični naslednik je vmesniška programska oprema Grid3, ki jo uporabljajo v ZDA in lahko deluje tudi z omrežjem EGEE.

NorduGrid ARC (Advanced Resource Connector, http://www.nordugrid.org/middleware/) je nastal na osnovi konceptov in tehnologij Globus Toolkita in je postal praktično uporabna implementacija tehnologije Grid. Je fleksibilna in modularna implementacija, ki je bila tudi osnova za prvo namestitev v gruči SiGNET.

LCG Middleware http://lcg.web.cern.ch/LCG/peb/GTA/GTATitlePage.htm je implementacija, ki izaja iz raziskovalnega dela v CERNU v okviru inciative LHC Computing Grid. LHC Computing Grid je iniciativa za enoten razov tehnologij in infrastrukture za izgradnjo in vzdrževanje podatkovnih shramb in orodij za analizo, ki jih bo potrebovala skupnost raziskovalcev na področju fizike visokih energih, ko bodo stekli eksperimenti na LHC (Velikem hadronskem trkalniku). LHC bo največja znanstvena naprava na svetu in zahteva uporabo ustreznih tehnologij. V okviru LCG je nastala kompleksnejša implementacija programske opreme za Grid, ki v primerjavi z NorduGrid ARC zahteva več sredstev ter bolj zapleteno namestitev, vendar ponuja več storitev na ravni gruče in Grida. LCG Middleware na gruči SiGNET teče od julija 2005.

ALIEN je implementacija tehnologije Grid za eksperiment Alice (eden od ekspekrimentov LHC). Je fleksibilna in učinkovita implementacija na osnovi elementov proste kode in standardnih protokolov. ALIEN je oblikovan po zgledu spletnih storitev in v veliki meri implementiran v jeziku Perl. Eksperiment Alice ga v praksi uporablja od leta 2001. Alien je eden od zgledov za sodobne implementacije.

gLite (http://www.glite.org/) je implementacija tehnologije Grid v okviru projekta EGEE. Inciativa LCG sodeluje z drugimi skupinami v ovkiru EGEE pri razvoju enotne platforma. Cilj te implementacije je na osnovi ugotovitev pri razvoju dosedanjih implementacij oblikovati sodobno, fleksibilno in zanesljivo ogrodje za razvoj infrastrukture in aplikacij Grid. Projekt EGEE predpostavlja, da bodo vsi člani prešli na gLite, ki bo postal enotna platforma kolaboracije in naj bi tako postopoma nadomestil NorduGrid ARC, LCG Middleware in ALIEN.

Objava za javnost © 2004, 2005, 2006 Odsek F9, Institut "Jozef Stefan". Datum objave: september 2006.