Accessibility Tools- Le blog participatif de bioinformatique francophone depuis 2012 –parLa diversité des questions que se posent nos amis biologistes entraîne une diversité des données : génomiques, images, etc. De plus, ces données sont générées à des vitesses folles. Pour manipuler les données et extraire les informations utiles, des solutions et outils bioinformatiques sont nécessaires. De nombreux outils existent déjà pour répondre à de nombreuses questions. Mais parfois, de nouveaux outils sont nécessaires pour répondre à une question spécifique. Intervient alors le développement d’un nouvel outil bioinformatique.Lorsque vous développez un outil bioinformatique, vous le faites dans le but premier de répondre à une question. Une fois celle-ci correctement formulée, vous choisissez votre méthode de travail et les outils (1, 2) qui vous aiderons à bien gérer votre projet. Par exemple, si vous avez choisi Java pour développer votre projet, il se peut que vous utilisiez Git comme gestionnaire de versions et Maven comme gestionnaire de build.Vous avez donc écrit du code source. Pour partager votre solution, vous allez écrire de la documentation, faire de la formation et du support autour de l’outil. Et vous pouvez être amené à le publier pour expliquer votre méthode (sinon, ce n’est pas de la science reproductible, donc pas de la science, et tac !). Il vous faut alors distribuer votre programme. Cela peut être fait de bien des façons :Le partage des sources est primordial pour assurer la transparence, mais il peut être particulièrement difficile d’installer correctement un logiciel (multitude de dépendances, incompatibilité entre des versions, etc). Le constat est simple : si votre algorithme est révolutionnaire mais que personne ne peut l’utiliser, “je ne lui prédis pas un grand avenir” (#OSS117).Cette voie fonctionne bien lorsque l’outil est simple et ne dépend pas de trop nombreux autres outils. Cependant, la phase de déploiement reste à la charge de l’utilisateur (ou de l’administrateur système du labo). Et le déploiement d’un logiciel est la proie de deux grands fléaux :Il s’en suit alors un casse-tête dantesque où l’utilisateur doit installer impeccablement TOUTES les bonnes versions de TOUTES les dépendances (si on peut encore les trouver et si elles sont compatibles avec son système, évidemment). A LA MAIN ! C’est évidemment une source colossale de fausse manip’ et de découragement pour l’utilisateur, qui préférera alors se tourner vers une solution alternative.Nous sommes donc face à un double problème de durabilité des outils et de leur déploiement. Ceux-ci ont des impacts importants sur la productivité et la reproductibilité en sciences. Il devient donc urgent de résoudre ces deux questions et rendre la bioinformatique meilleure !Les problèmes précédemment cités sont une chose que les utilisateurs de systèmes GNU/Linux et OSX ne connaissent qu’à moitié, puisque rares sont ceux qui installent tout à la main. Le commun des mortels utilise, quand il le peut, un gestionnaire de paquets. Il en existent plusieurs étant pour la plupart spécifique :Le packaging demande un petit effort de la part du développeur, mais le déploiement de l’outil derrière le code est grandement facilité. L’utilisateur n’a à se préoccuper que de la partie “utilisation” (ce qui est somme toute plutôt logique). Pour que tout soit parfait, il est également nécessaire de documenter le logiciel, de proposer des formations, du support et d’en faire la publicité.Pour qu’un outil soit utilisé, il doit être facilement déployable n’importe où. Pour cela, il faut le packager avec un gestionnaire de paquets qui soit :Des outils bioinformatiques sont disponibles dans pratiquement tous les langages disponiblesLes outils sont utilisés sur les principaux systèmes d’exploitationCertains utilisateurs n’ont pas les droits d’administration de leur ordinateurDes versions différentes d’un outil peuvent être requises par différents outilsConda est un gestionnaire de paquets open-source qui répond très bien à ces problématiques. Bien que développé par la communauté PyData, conda est conçu pour gérer des paquets et dépendances de n’importe quel programme dans n’importe quel langage. Conda est donc moins qu’une version multi-système d’exploitation de et .Un paquet conda est défini par une recette et correspond in fine à un fichier tarball contenant des librairies au niveau système, Python ou d’autres modules, des programmes exécutables ou d’autres composants. En distribuant des outils précompilés, l’installation de paquet conda est rapide, robuste et facile :Il y a d’ailleurs un excellent article introductif pour une installation et prise en main rapide de conda.Conda permet donc de gérer différents logiciels, un peu à la manière de du point de vue de l’utilisateur. On retrouve les commandes suivantes :Conda garde une trace des dépendances entre les paquets et les plateformes. Par exemple, a besoin de , et entre autres. Conda se charge d’installer ou de mettre à jour ses dépendances si besoin, ainsi que les dépendances de ces dépendances, etc.Conda vient aussi avec une gestion d’environnements virtuels, sur le même principe que les environnements virtuels de Python. Un environnement conda est un dossier contenant une collection spécifique de paquets conda installés mais isolés des autres environnements conda. Ce principe permet l’installation et la gestion de plusieurs versions d’outils, comme Python 2.7 et Python 3.5 par exemple. Vous pouvez alors créer des environnements dédiés qui assureront la reproductibilité de vos analyses. Tout est expliquer ici pour créer vos environnements.Encore des réticences vis-à-vis de Conda ? Je vous conseille de lire ce blog post sur les mythes et fausses idées liées à Conda.En bon gestionnaire de paquets, conda offre la possibilité d’ajouter d’autres sources de paquets, aussi appelées channels. Les outils assez généralistes peuvent être trouvé dans le channel default ou conda-forge. Spécialisé dans les outils bioinformatiques, le channel Bioconda consiste en :Avec presque 200 contributeurs, cette communauté accueillante et formée il y a un peu plus de 1 an grossit rapidement. Elle ajoute, modifie, met à jour et maintient les nombreuses recettes des paquets conda d’outils bioinformatiques existant, mais vous donnera aussi tout un tas de conseils pour parfaire vos recettes.Envie d’écrire un paquet conda pour un outil existant ? On pourrait penser que cela est difficile étant donnés les avantages apportés par conda. Mais au contraire, l’écriture de paquets conda a été pensée pour être facile et permettre ainsi à tous d’intégrer les outils dans conda avec une documentation extensive. Ainsi, un paquet conda consiste en deux fichiers :Par exemple, pour le logiciel deeptools, on le fichier suivant :Cette recette fera automatiquement appel au script qui contient les instructions pour installer le logiciel, en l’occurrence :Bioconda propose un guide pour écrire des recettes qui seront par la suite intégrées au channel. Et dans tous les cas, vous pouvez faire appel aux membres de la communautés pour vous aider à construire, débugger, mettre à jour ou parfaire votre recette.Pour faciliter le déploiement tout en suivant les besoins évoqués précédemment, un autre moyen de packager un outil est de le containeriser. La containerisation la plus connue est Docker, mais il existe d’autres solutions comme rkt ou Singularity. Ces containers permettent d’obtenir un plus haut niveau d’abstraction pour un outil par rapport au système de base.La création de containers pour un outil est plus complexe que pour créer un paquet conda. Par exemple, pour créer un container Docker, il faut créer un fichier Dockerfile décrivant l’image de base utilisée, les commandes pour créer l’outil, etc.Mulled est un projet permettant de générer un container (BioContainer) minimal pour Docker ou rkt à partir d’un paquet conda, alpine or linuxbrew. Il faut seulement ajouter une ligne dans un fichier TSV pour indiquer à Mulled de créer le container.Pour des paquets Bioconda, c’est encore plus facile : il n’y a rien à faire. Mulled parcourt tous les paquets Bioconda quotidiennement et génère des BioContainers automatiquement pour tous les paquets Bioconda.En packageant les outils avec conda au sein de Bioconda, on réduit drastiquement le problème de déploiement des outils aux utilisateurs. Les outils deviennent facilement déployables avec plusieurs solutions : via les paquets conda ou via des BioContainers construits automatiquement.Un outil peut dépendre de nombreux autres outils, qui peuvent ne plus être maintenus ni même disponibles. L’indisponibilité des outils posent de nombreux problèmes dont ceux de reproductibilité et durabilité.Pour résoudre ces problèmes, l’idéal serait d’avoir un stockage permanent de toutes les versions des paquets et outils utilisés pour qu’ils soient toujours accessibles.La reproductibilité et l’accessibilité font partis des mantras du projet Galaxy. Ainsi, pour répondre aux problèmes de disponibilité et de durabilité des outils et paquets, la communauté autour de Galaxy a mis en place Cargo Port, un répertoire public pour archiver de nombreux paquets de façon stable et permanente.Ajouter un paquet dans ce dépôt est facile. Il suffit d’ajouter une ligne dans un fichier TSV avec les informations (nom et URL) sur le paquet à stocker. Pour les paquets créés avec Bioconda, c’est même encore plus facile : il n’y a rien à faire ! Cargo Port fait des archives journalières des recettes et paquets Bioconda, et permet ainsi de résoudre les problèmes de durabilité et disponibilité des outils.Le développement des paquets Bioconda est très facile et facilite le packaging et le déploiement de tout outil bioinformatique. Avec le projet Mulled, des containers GNU/Linux efficaces sont automatiquement construits pour tous paquets Bioconda pour permettre un plus haut niveau d’abstraction et d’isolation par rapport au système de base. C’est un super effort de différentes communautés pour créer un système flexible et extensible et fixer ainsi le problème de déploiement une fois pour toute.L’interface avec paquets Bioconda avec Cargo Port améliore la disponibilité et la durabilité en conservant toutes les sources.Nous espérons vous avoir convaincus que grâce à ces projets collaboratifs, leur communauté et leurs collaborations, les outils bioinformatiques peuvent être facilement packagés et être toujours disponibles pour leurs utilisateurs. La seule chose à faire est de créer une recette Bioconda et rendre ainsi vos utilisateurs heureux et leurs (et vos) analyses efficaces et reproductibles !Merci à Nico M, HedJour, Mathurin, Akira pour les relectures et les commentaires intéressants !Cet article a été écrit conjointement par Bérénice et Kévin Vous avez aimé ? Dites-le nous ! Moyenne : 0 / 5. Nb de votes : 0 Pas encore de vote pour cet article. We are sorry that this post was not useful for you ! Let us improve this post ! Tell us how we can improve this post ? Partagez cet articlebebatutJe suis en post-doc à Freiburg, après un premier post-doc sur le traitement des données liées aux microbiotes à Clermont-Ferrand. Ma thèse en évolution bactérienne était à l’interface entre biologie computationnelle (évolution artificielle) et bioinformatique (génomique comparative). Mais, avant tout ça, j’ai suivi la formation d’ingénieur en Bioinformatique et Modélisation (BIM à l’INSA de Lyon) et un master d’Informatique Fondamentale (option Modélisation des systèmes complexes à l’ENS de Lyon). Je m’intéresse à ce qui tourne autour de l’open science, l’open source, la communication scientifique, la science des données et de nombreux autres sujets. Compte Twitter : @bebatutMerci à Björn Grüning et toutes les personnes impliquées pour avoir mis en place Bioconda, Mulled, Cargo PortPour insérer du code dans vos commentaires, utilisez les balises et <\code>.Sauf mention contraire, tous les articles du blog sont sous licence CC-BY-NCLogo et design par Isabelle Stévant & Gwenaelle Lemoine - Connexion - Politique de confidentialité