Il Contesto
Attualmente le risorse fisiche utilizzate dall’INAF per il calcolo sono rese disponibili o da ambienti “on premise” interni all’Ente, o da richieste a strutture specifiche nel caso le risorse stesse fossero ingenti. In questo scenario risulta interessante valutare come una soluzione cloud commerciale possa consentire di:
- essere accessibile via web, in maniera sicura, da qualsiasi struttura l’operatore si trovasse a lavorare
- consenta di disporre delle risorse necessarie istantaneamente o comunque in pochissimi minuti
- preveda un effort economico parametrato dall’effettivo utilizzo
A partire da queste esigenze di INAF, ha iniziato la sperimentazione della piattaforma Cloud offerta da Amazon (Amazon Web Services, AWS) per esplorare applicazioni di questa tecnologia alle necessità di calcolo in ambito Astrofisico e di interesse per l’Ente.
Nel contesto dei servizi offerti della piattaforma, di rilevante importanza ricoprono i servizi (offerti attraverso accesso web) essenzialmente a tre macro-categorie:
Calcolo parallelo ed accelerato
- Esigenze di calcolo HTC parallelo attraverso il servizio Amazon Elastic Cloud Computing (EC2). L’utilizzo di EC2 permette di creare in modo rapido clusters di macchine virtuali adatte all’esecuzione parallela di software HTC (specialmente di tipo embarrassingly parallel) e/o basato su Containers e microservices. La piattaforma permette di scalare applicazioni che beneficiano di calcolo parallelo HTC mettendo a disposizione migliaia di cores in modo elastico (tra i quali Intel Xeon Cascade Lake, Xeon E5 Cascade Lake) e fino ad un massimo di alcune centinaia di TB di RAM (con una media di 4 GB/core)
- Esigenze di calcolo accelerato da GPU: La piattaforma EC2 permette di accelerare applicazioni in modalità HTC+GPU attraverso la disponibilità centinaia di GPU della famiglia NVIDIA (offerte anche in modalità SLI fino a 8). Tra le GPU più performanti, è possibile ottenere nodi con GPU NVIDIA Tesla V100 (fino a 8 per nodo), ciascuna in associazione a 5.120 core CUDA e 640 core Tensor.
Analisi dati e Machine Learning (as a Service)
La piattaforma, attraverso il servizio SageMaker, permette di avere a disposizione un framework di machine learning e di Data Analytics. Il servizio permette l’accesso a piattaforme di Machine Learning (offerte sotto forma di Webservice) che dispongono di algoritmi già implementati adattabili alle esigenze dell’utente. Usando SageMaker è possibile creare, addestrare e utilizzare modelli di Machine Learning per applicazioni senza dover provvedere alla infrastruttura sottostante sia in fase di training che di deployment.
Deployment di infrastrutture per applicazioni complesse e/o scalabili
La combinazione dei servizi EC2, di storage e di federation (quali la possibilità di usare in modalità ibrida servizi AWS + ICT INAF) consente di progettare architetture scalabili basati su concetti di Serverless Application, Event Driven application (basati ad esempio su meccanismi di message passing tra applicazioni) e On-Demand (ad esempio, esecuzione di pipeline di riduzione dati su richiesta di triggers specifici in ambiente containerizzato).
Meccanismo di accesso alle risorse
Il paradigma di calcolo basato su Cloud è ottimale nel momento in cui sia necessario accedere a un quantitativo ragguardevole di risorse in modo rapido, sporadico nel tempo e di durata limitata. Per questa ragione, l’accesso delle risorse nel contesto di questo progetto è offerto in modalità a sportello mediante la compilazione del form all’indirizzo:
Al fine di garantire un accesso sia capillare che con una opportuna granularità che permetta di valutare le potenzialità effettive della piattaforme si raccomanda di sottoporre progetti che rispecchino il paradigma di calcolo Cloud (accesso rapido alle risorse, sporadico nel tempo e di durata limitata). A titolo esemplificativo, si considerino le seguenti scale di progetti accettabili
- Small project, scalability test
- Medium project
- Large project
La call mette a disposizione una potenza totale pari a svariate migliaia di cores/hrs equivalenti.
Informazioni sul board e ringraziamenti nei papers
Principal Investigators: Marco Landoni – INAF OA Brera, Riccardo Smareglia – INAF OA Trieste
Board Tecnico: Giuliano Taffoni (OA Trieste), Marco Landoni (OA Brera), Riccardo Smareglia (OA Trieste), Alessandro Costa (OA Catania), Antonio Calanducci (OA Catania).
Nei ringraziamenti dei papers realizzati grazie all’utilizzo di questa piattaforma, si richiede di citare i seguenti papers:
“DATA-STAR: The new INAF computational infrastructure for big data”
“Application of commercial cloud platform in astrophysics: The case of the Italian National Institute of Astrophysics”
Reference : SPIE 2019 Astronomical Telescopes and Instrumentation (TBD)
Per informazioni, potete inviare una richiesta all’indirizzo aws-info.ict@inaf.it. Inoltre, per chi volesse inoltre registrarsi al gruppo cloud AWS nell’ambito ICT Inaf può ricevere aggiornamenti attraverso l’iscrizione alla mailing list aws.ict@inaf.it