Ressources

Les outils pour accélerer la recherche scientifique

Rédigé par Jihene Ouertani | 07 juillet 2021

La recherche scientifique s'est profondément transformée pendant ces cinquante dernières années, tant dans son organisation que dans ses méthodes. Les chercheurs d'aujourd'hui ont accès à une plus grande variété et un plus grand volume de données. Bien que cet accès accru aux données constitue un avantage considérable pour l'avancement des recherches, l’analyse de ces dernières nécessite le recours à des calculateurs particulièrement puissants. D’où la nécessité d’investir dans des machines et des clusters de calculs puissants afin d’avancer dans les recherches ce qui constitue un cout considérablement élevé.

Comment permettre donc aux chercheurs d'accéder à des ressources de calcul et de stockage tout en évitant un grand investissement ?

Aujourd’hui avec le cloud il est possible d’établir un environnement de recherche sans investissement financier substantiel initial tout en évitant une gestion d’infrastructure avancée chronophage.

Le cloud s’est avéré très utile pour accélérer la recherche en fournissant presque toutes les capacités de calcul et de données dont les utilisateurs ont besoins pour piloter leurs recherches. Qu'il s'agisse d'un ordinateur avec plus de mémoire, d'un cluster avec des milliers de noyaux, d'une plateforme de big data, d'une solution d'Internet des objets ou de machine Learning, on peut aujourd’hui tout obtenir en utilisant le cloud.

Microsoft conscients des principaux défis auxquels sont confrontés les chercheurs a créé une solution de cloud Computing intitulée Microsoft Azure pour répondre à leurs besoins et pour accélérer la découverte.

La solution Azure offre plusieurs manières de fournir un environnement cloud de recherche pour vos chercheurs a (IaaS,PaaS et SaaS) . Dans cette édition nous vous présenterons les différentes solutions répondant aux besoins des chercheurs. Une première partie sera consacrée à la première possibilité qui est de fournir un cluster dédié par utilisateur à l’aide de :

#1 Azure virtual Desktop (IaaS)

En premier lieu nous allons aborder la solution Azure Virtual Desktop qui permet aux DSI de déployer des machines virtuelles, configurées exactement comme ils le souhaitent qui sont instanciées en toute sécurité dans le cloud Azure. Concrètement les chercheurs auront accès à toute la capacité de calcul et de stockage de la machine virtuelle.

#2 Azure DevTest Labs (PaaS)

En tant que DSI, ce service vous permet de configurer rapidement un environnement pour vos chercheurs, par exemple un environnement de développement ou un environnement de test dans le cloud. Vous créez un laboratoire, configurez Windows ou des machines virtuelles Linux, installez les logiciels et outils nécessaires, puis vous les rendez disponibles aux utilisateurs du laboratoire (enseignants chercheurs, étudiants). Les utilisateurs du lab se connectent à des machines virtuelles, puis s’en servent pour leurs tâches quotidiennes ou leurs projets. Lorsque vos utilisateurs commencent à exploiter les ressources du laboratoire, vous pouvez analyser les coûts et l’utilisation entre plusieurs laboratoires et définir des stratégies globales afin d’optimiser les coûts de l’équipe ou de l’organisation.

#3 Azure Lab Services (SaaS)

En tant que DSI vous pouvez utiliser ALS pour créer des laboratoires managés pour vos étudiants/enseignants. Le service lui-même gère toute l’infrastructure du labo : de l’augmentation de la capacité des machines virtuelles à la gestion des erreurs, en passant par la mise à l’échelle de cette infrastructure ce qui vous épargne un travail chronophage. Une fois que vous avez créé un compte lab dans Azure Lab Services, vous pouvez soit rapidement configurer un lab ou donner la main à un enseignant pour spécifier le nombre et le type de machines virtuelles nécessaires pour les exercices ou le projet de recherche et ajouter des utilisateurs pour rejoindre le lab. Une fois qu’un utilisateur s’est inscrit, il peut accéder à la machine virtuelle pour travailler sur son projet de recherche.

Une autre possibilité s’offre aux établissements d’enseignement quand il s’agit des environnements cloud : nous avons vu les clusters dédiés par utilisateur, nous allons passer maintenant à la seconde alternative : un cluster partagé par groupe de travail à l’aide de :

#1 Azure Kubernetes Services (Iaas)

Via son offre de Kubernetes as a Service, Microsoft a choisi de tout encapsuler et de proposer un portail qui permet d'afficher toutes propriétés liées à un cluster AKS.

Le développement Kubernetes sous Windows étant compliqué, Microsoft avec Azure Kubernetes Service (AKS) a voulu prendre la main sur Kubernetes. L’objectif derrière AKS est de simplifier le déploiement d’un cluster Kubernetes en délégant la complexité et la surcharge opérationnelle de la gestion de ce cluster au cloud de Microsoft.

Un service Azure conçu pour déployer un cluster Kubernetes managé facilitant le déploiement et la gestion des applications conteneurisées. Azure va donc gérer pour nous les tâches dites critiques comme l’analyse et la maintenance. Encore une fois le but étant de simplifier les actions que le développeur sera amené à réaliser.

#2 Azure HDInsight (Paas)

Azure HDInsight est une distribution cloud des composants Hadoop. L’objectif est de rendre facile, rapide et économique le traitement de volumes importants de données. Vos utilisateurs peuvent accéder à des infrastructures open source les plus populaires, telles que Hadoop, Spark, Hive, LLAP, Kafka, Storm, R et bien plus encore. Avec ces infrastructures, ils peuvent activer un large éventail de scénarios, tels que l’extraction, la transformation et le chargement (ETL) ; l’entreposage de données ; l’apprentissage automatique ; et IoT.

#3 Azure Databricks (SaaS) :

Azure Databricks fournit une plateforme d’analytique rapide, simple et collaborative, qui s’appuie sur Apache Spark pour accélérer et simplifier le processus d’élaboration des solutions de Big Data et d’IA.

Avec Azure Databricks, vos utilisateurs peuvent configurer un environnement Apache Spark optimisé en quelques minutes. Vos chercheurs dans les domaines de sciences de données et les ingénieurs de données peuvent collaborer en utilisant un espace de travail interactif avec les langages et les outils de leur choix. L’intégration native avec Azure Active Directory (Azure AD) et d’autres services Azure leur permet de créer des solutions modernes et de bout en bout d’entrepôt de données, de Machine Learning et d’analytique en temps réel.

Vous l’avez déjà compris les machines virtuelles Azure offrent la souplesse de la virtualisation pour un large éventail de solutions, avec la prise en charge de Linux, Windows Server, SQL Server, Oracle, IBM, SAP, etc. Toutes les machines virtuelles d'aujourd'hui incluent l'équilibrage de charge et la mise à l'échelle automatique. Mais quels outils spécialisés pour la recherche scientifique dans azure ?

#1 Machine learning avec Azure ML

Azure Machine Learning est une solution de science des données et d'analyse avancée. Elle permet aux data scientists de préparer les données, de développer et de déployer des modèles dans le cloud, ce qui accélère considérablement le développement et le déploiement des projets de data science. 

#2 La science génomique avec Microsoft Genomics

Le séquençage du génome exige une grande quantité de stockage de données et de puissance de calcul, puisque chaque génome a une taille de 10 à 100 Go et nécessite des centaines ou des milliers d'heures de CPU pour être traité. Microsoft est consciente des défis auxquels est confrontée la communauté génomique a construit un écosystème Microsoft Genomics qui peut faciliter le travail génomique pour les chercheurs afin d’accélérer la découverte

Le service Microsoft Genomics fournit un service web simple à utiliser pour analyser les génomes, plusieurs fois plus rapide que le pipeline génomique standard. Ce service suit les meilleures pratiques de concordance et de précision établies par le Broad Institute du MIT et de Harvard, la norme de fait pour l'analyse génomique. La vitesse, la précision et la simplicité du service Microsoft Genomics permettent un large éventail d'applications dans les domaines du cancer, des maladies rares, de la santé des populations et de la médecine de précision.

#3 Gestion Azure CycleCloud

Azure CycleCloud est une application qui offre une méthode simple, sécurisée et scalable pour créer, personnaliser et gérer des clusters HPC dans Azure.

En tant que DSI, avec CycleCloud, vous pouvez fournir une infrastructure pour les systèmes HPC, déployer des ordonnanceurs HPC familiers et faire évoluer automatiquement l'infrastructure pour exécuter efficacement les tâches à n'importe quelle échelle. Vos chercheurs peuvent créer différents types de systèmes de fichiers et les monter sur les nœuds de cluster de calcul pour prendre en charge les charges de travail HPC.

Azure CycleCloud s'adresse aux administrateurs HPC et aux utilisateurs qui souhaitent déployer un environnement HPC avec un planificateur spécifique en tête - les planificateurs couramment utilisés tels que Slurm, PBSPro, LSF, Grid Engine et HT-Condor sont pris en charge d'emblée.

#4 Physique Quantique avec Azure Quantum

Azure Quantum, le service quantique en mode cloud de Microsoft permet à vos utilisateurs d’avoir accès à diverses solutions logicielles et matérielles quantiques, ainsi qu'à un réseau de chercheurs, de développeurs et de concepteurs. Un kit de développement quantique avec le langage de programmation quantique Q# est à la disposition des utilisateurs.

Ce service cloud donne par ailleurs accès à une bibliothèque de ressources avec du matériel pédagogique et des exemples. «Microsoft Learn» enseigne les concepts quantiques de base, alors que les tutoriels d'auto-apprentissage «Katas» forme à la programmation

Azure Quantum est donc un guichet unique qui vous donne la liberté de créer votre propre chemin vers l'informatique quantique évolutive. Grâce à un environnement Azure familier, vos chercheurs auront l’accès à tous les outils et ressources dont ils ont besoin pour accélérer rapidement et avoir un impact aujourd'hui, tout en construisant pour l'avenir.

Pour conclure, Azure offre désormais à tous les chercheurs la possibilité d’accélérer la recherche, même avec un budget limité. En outre, le coût réduit du stockage signifie que la communauté des chercheurs dans son ensemble peut conserver et partager les données, ce qui favorise une collaboration plus étroite au sein de la communauté et permet de réaliser des croisements de données susceptibles de révéler de nouvelles découvertes.

Envie de savoir plus sur la solution Azure et ses avantages pour les établissements d’enseignement ? nos experts sont à votre disposition pour vous accompagner dans vos projets de cloud computing.