GMIN206 - Banques de données biologiques

Support de cours

Plan du TP

Ce TP a été réalisé en utilisant des informations de 2 TP proposés par Maude Pupin.

I. Les banques de données

Nous allons visiter le site web de l'institut Pasteur (http://www.pasteur.fr/). Ce site offre beaucoup de ressources, ajoutez-le à vos marques-pages.
Cliquez sur l'onglet 'LA RECHERCHE' puis 'Centre d'Informatique pour la Biologie' puis 'Logiciels pour la biologie' et trouvez les banques de séquences disponibles à l'institut Pasteur.
Quelles sont les 5 catégories de banques proposées ?
Dans la catégorie "Genome databanks", quels sont les génomes proposés ?
Que se passe-t-il si on clique sur le nom d'une banque ?
Quelle est la fréquence des mises à jour de la banque EMBL sur l'Institut Pasteur ?
Allez sur la banque PDB ("Structure databanks").
Quelle est la spécialité de PDB ?
Faites une recherche avec le mot "1o1i".
De quelle molécule s'agit-il ?
Cliquez sur "View in 3D".
Si l'applet fonctionne, essayer de faire pivoter la molecule (avec la molette de votre souris) ?
Retournez à la fiche descriptive.
En quelle année a été déposée cette séquence ?
Par quelle méthode a-t-elle été déterminée ?
De quelle organisme provient-elle ?
Aller sur le site http://www.rcsb.org/pdb/explore/quickPDB.do et dans l'intefrace de QuickPDB, indiquez 1o1i pour le PDB ID (si ce n'est pas déjà indiqué). Colorez les 2 chaînes de l'hémoglobine avec des couleurs différentes.
Passez votre souris sur l'image, qu'est ce qui apparaît ?
Que signifie le chiffre ?
Que se passe-t-il si vous cliquez ?
Passez maintenant la souris sur la séquence protéique, que ce passe-t-il sur le dessin ?
Cochez (à gauche de l'image) les 2 chaînes, faites apparaître les résidus aromatiques.
Affichez un fichier au format PDB.
Quels mots-clés sont utilisés dans les flatfiles de la PDB ? Citez-en quelques-uns.
La PDB présente beaucoup d'autres fonctionnalités que nous n'auront pas le temps d'explorer aujourd'hui. Gardez tout de même cette page ouverte. Ouvrez une nouvelle fenêtre et revenez sur la page des banques disponibles à Pasteur.
Allez dans la catégorie "Other databanks", nous allons nous intéresser à PFam. Rendez-vous sur cette base de donnée par les liens de Pasteur.
PFam est une banque de quel type ?
Quelle est la version actuelle de PFam ?
Combien de familles contient-elle ?
Dans l'onglet "Search", faites une recherche avec le mot clé "hemoglobin". Combien de résultats trouvez-vous ?
La séquence que nous avons vu tout à l'heure dans la PDB fait-elle partie d'une famille de cette liste ?
Quel est son numéro ? (vous pourrez répondre à cette question à la fin du TP)
Explorez la fiche PFam de la famille PF00042 : alignement, architecture des domaines, arbre phylogénétique, lien vers les autres banques ...
Flèche vers le haut

II. Interrogation de banques de données via Entrez

Dans cet exercice, nous allons utiliser Entrez qui est l'interface d'interrogation développée au NCBI. Elle a l'avantage de pouvoir faire des requêtes simples, mais aussi des requêtes complexes quand on sait l'utiliser (aide pour l'utilisation d'Entrez).

La page d'accueil propose d'interroger en même temps toutes les banques accessibles via Entrez. En cliquant sur le nom d'une banque, on accède alors à l'interface d'interrogation classique qui comprend une zone de saisie des critères de recherche (zone texte "for") et, juste en dessous sous forme d'onglets, des liens vers des fonctionnalités du système d'interrogation.
Le lien "History" affiche toutes les requêtes effectuées depuis le début de votre session sur la banque, c'est-à-dire depuis votre connection à cette banque. Il est possible d'accéder à la liste des entrées qui répondent à une requête en cliquant sur le lien du nombre d'entrées trouvées.

II-1. Recherche simple

Pour commencer, nous allons interroger la banque appelée "Nucleotide". Sur la première page de cette banque, il est indiqué d'où proviennent ses données.
Quelles sont les banques qui composent la banque "Nucleotide" ?
Recherchez toutes les séquences humaines contenues dans cette banque.
Combien d'entrées sont trouvées ?
Les entrées obtenues sont présentées sous la forme d'une liste. La ligne de description de l'entrée est indiquée.
Que contiennent les entrées présentes sur la première page ?
En cliquant sur le lien d'une entrée, on obtient l'entrée entière au format GenBank.
Est-ce que ces entrées ont une annotation détaillée (par exemple, le nom et la position d'exons, ...) ?
Est-ce que vous trouvez des entrées en saisissant l'expression "homo spaiens" qui contient une erreur de frappe (sans préciser 'organism' comme champ) ?
Faites la même requête en ajoutant le nom de champ [orgn]. Trouvez-vous le même résultat que précédemment ?
Malheureusement, quelques entrées contiennent une erreur de frappe sur l'expression "homo sapiens". Vous constaterez que l'erreur n'apparaît pas dans la ligne OS qui est spécifique au nom d'organisme. Il est tout-de-même vérifié que l'organisme indiqué existe bien. Par contre, les commentaires librement saisis par les laboratoires qui soumettent les séquences ne peuvent pas être vérifiés. Il s'y glisse donc des erreurs de ce type. L'utilisation des champs réduit les erreurs possibles.
Flèche vers le haut

II-2. Utilisation d'opérateurs booléens

Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens :
  • AND : les deux termes sont tous les deux dans les entrées.
  • OR : au moins un des deux termes est dans l'entrée.
  • NOT : le premier terme doit être présent dans les entrées et les entrées qui contiennent le deuxième sont exclues.
Note : dans Entrez, les opérateurs doivent obligatoirement être saisis en majuscules pour être reconnus.
Pour voir l'influence des opérateurs, nous allons effectuez, successivement, quatre requêtes :
  • trinucleotide repeat
  • trinucleotide AND repeat
  • trinucleotide OR repeat
  • trinucleotide NOT repeat
Pour chaque requête, notez le nombre d'entrées trouvées et consultez une ou deux des entrées trouvées (essayez de ne pas prendre une entrée de génome car elles sont très grandes et donc longues à afficher). Recherchez dans ces entrées le mot "trinucleotide" et le mot "repeat" à l'aide du menu "Edition->Rechercher sur la page" de votre navigateur ou simplement avec "Ctrl-F".
Est-ce que les deux termes sont bien dans l'entrée ?
Est-ce qu'ils sont côte à côte ?
D'après les résultats trouvés, calculez le nombre d'entrées possédant uniquement le terme "trinucleotide", uniquement le terme "repeat" et les deux termes en même temps.
Dans l'onglet 'Search Details' vous pourrez comprendre comment vos requêtes sont traduites
Quelle est la différence entre la première et la seconde requête (avec ou sans AND) ?
Flèche vers le haut

II-3. Combinaison de plusieurs requêtes

Dans l'onglet "Advanced" la partie "History" qui se trouve sous la zone de saisie affiche les plus récentes requêtes effectuées depuis votre connection à la banque. Chaque requête porte un numéro (#1, #2, ...). Il est possible de croiser le résultat de plusieurs requêtes en utilisant leur numéro. Par exemple, "#1 AND #2" correspond à l'ensemble des entrées qui vérifie à la fois les critères de la requête #1 et ceux de la requête #2. Depuis l'historique, il est également possible de relancer des requêtes, en supprimer, ...
Recherchez les séquences humaines soit à l'aide du nom usuel "human", soit à l'aide du nom latin "homo sapiens" (sans préciser le champ 'organism').
Est-ce que le nombre d'entrées trouvées change entre les deux ?
Est-ce que le nom usuel apparaît dans la ligne "SOURCE" (équivalente à la ligne "OS" de l'EMBL) ?
À l'aide de l'historique, affichez les entrées qui ne contiennent que le nom usuel.
Est-ce que ces entrées proviennent du génome humain ?
Dans au moins une de ces entrées, regardez où apparaît le nom usuel.
Est-ce qu'il vaut mieux faire une interrogation par le nom latin ou le nom usuel ?
Faites la meme recherche en précisant [orgn] en tant que nom de champ. Trouvez-vous le même résultat que précédemment ?
Flèche vers le haut

II-4. Réduction du nombre de réponses

Beaucoup d'entrées répondent à la requête "homo sapiens". Lorsque l'on regarde au hasard quelques pages de résultats, on voit qu'il y a des séquences de fragments de génomes, d'EST, de brevets (Patent), ... Toutes ces séquences ne sont pas très intéressantes à étudier, sauf dans des cas particuliers. Pour réduire le nombre d'entrées trouvées, on peut utiliser le lien "Limits" qui se trouve en-dessus de la zone de saisie. Ce lien mène à un formulaire qui propose plusieurs options permettant de réduire le nombre d'entrées trouvées sur des critères tels que la date d'entrée de la séquence dans la banque, si la séquence est issue du génome nucléaire, mitochondrial ou chloroplastique, ... Parmi ces options, il y a la possibilité d'exclure les séquences de type STS (fragments de génomes), ... .
Cochez cette option et relancez la requête sur "homo sapiens" (sans préciser le champ 'organism'). Cela doit réduire un peu le nombre d'entrées trouvées.
Consultez premières entrées.
Est-ce que toutes les séquences de cette page proviennent de l'humain ?
Si non, où "homo sapiens" apparaît dans l'entrée qui ne provient pas de l'humain ?
Plusieurs entrées ne proviennent pas de l'humain, "homo sapiens" apparaît dans les commentaires ou pour les bactéries dans la propriété 'host' des caractéristiques ('Features'). Par défaut, les termes d'une requête sont recherchés dans l'ensemble de l'entrée. Pour faire des recherches plus pertinentes, il faut préciser le champ dans lequel les termes sont recherchés.
Flèche vers le haut

II-5. Interrogation des champs

Dans l'onglet "Advanced" la partie "Builder" en-dessous de la zone de saisie donne accès à la liste des champs interrogeables de la banque de données.
Recherchez dans la liste des champs, celui qui permet de limiter les entrées à celle qui proviennent de l'Homme. Saisissez "homo sapiens" dans la zone de saisie qui se trouve à côté de la liste des champs. Vous voyez la requête se construire au fur et à mesure dans la zone de texte au dessue de 'Builder'. Vous pouvez éditer cette zone de texte et modifier la requête.
Quelle est la synthaxe utilisée pour interroger un champ ?
Combien d'entrées trouvez-vous à présent ?
Rappel : dans Entrez, pour interroger un champ il faut indiquer la valeur du champ (ou le symbole) entre crochets après la valeur. Il est également possible d'écrire une telle requête directement dans l'interface de requête simple. Ex : homo sapiens [organism].
Flèche vers le haut

II-6. Changement du format d'affichage

Le menu déroulant à côté du bouton "Display Settings" propose plusieurs formats d'affichage des entrées et de la liste de résultats. Le format par défaut est "Summary".
Recherchez les gènes (ARNm) qui codent pour une protéine ayant une fonction dikinase, chez Arabidopsis thaliana. Vous devez trouvez moins d'une trentaine d'entrées. Utilisez la partie 'Filter your results' à droite pour obtenir que les séquences d'ARNm.
Est-ce que les entrées trouvées sont redondantes ou correspondent à des gènes différents ?
Affichez l'entrée d'un des ARNm trouvés. Enregistrez l'entrée à l'aide du menu "Enregistrer sous" de votre navigateur. Ouvrez le fichier ainsi enregistré.
Quel est le type (l'extension) de ce fichier ?
Changez le format d'affichage en "Graph" (ou "Graphics"). Cet affichage est très apréciable pour visualiser de grandes entrées.
Changez l'affichage au format FASTA, mais en demandant directement l'enregistrement dans un fichier à l'aide du bouton "Send to".
Quelle solution vous semble la plus simple pour enregistrer votre séquence au format FASTA ?
Flèche vers le haut

II-7. Clipboard et liens pour chaque séq.

On peut sauver temporairement des entrées d'une ou plusieurs recherches en utilisant le Clipboard. Attention cependant car le Clipboard est perdu après 8 heures d'inactivité
Retournez dans une de vos recherches, selectionnez 1 séquence et envoyer là sur le clipboard à l'aide du bouton "Send to". Un message apparaît pour vous indiquez le nombre de séquence ajouté au Clipboard.
Sauvez d'autres séquences d'autres recherches, puis rendez-vous dans votre Clipboard. Et essayez les possibiltés du Clipboard.
Essayez les différents parties à droite. Dans 'Filter your results' à droite, vous avez la possibilités de filtrer vos résultats suivant différents critères proposés. il est également possibile de lancer un Blast, ... .
Flèche vers le haut

III. SRS

Il existe de nombreux sites SRS, nous allons utiliser celui de l' EBI.

III-1. Requête simple

Le formulaire de la page d'accueil permet uniquement de faire des requêtes simples, c'est-à-dire la saisie de texte libre (équivalent de ce que propose Entrez, si on ne précise pas de nom de champ).
Comme dans l'exercice précédent, vous pouvez rechercher l'ensemble des entrées de la banque nucléotidique qui contiennent "homo sapiens" dans leur texte.
Flèche vers le haut

III-2. Interrogation des champs

SRS propose deux formulaires ("standard" et "extended") pour construire des requêtes avec interrogation des champs et utilisation d'opérateurs booléens : ET (noté "&"), OU (noté "|") et NON (noté "!").

Pour accéder aux formulaires, il faut commencer par choisir la ou les banques interrogées. Pour cela, cliquez sur l'onglet "Library Page". Vous obtenez alors la liste des banques interrogeables via SRS. Les banques interrogées sont sélectionnées en cliquant sur les cases à cocher situées à droite de leur nom.
Ensuite, on accède aux formulaires d'interrogation, en cliquant sur les boutons rouges ("Standard Query Form" ou "Extended Queery Form"). Ces boutons se situent dans le bandeau gris, sur la gauche de la page.

Pour commencer, nous allons interroger la banque de séquences nucléotidiques EMBL, à l'aide du formulaire standard. Recherchez un gène appelé Acam en tapant la valeur "Acam" dans le champ "Features:Gene".
Combien d'entrées sont trouvées ?
Afficher les résultats avec la vue "EMBLFeatView".
Quelles sont les fonctions des protéines codées par les gènes Acam ?
Est-ce que des gènes qui portent le même nom codent pour des protéines qui ont la même fonction ?
Consultez les entrées pour voir où l'information du nom de gène est donnée.
Nous allons maintenant interroger la banque de séquences protéiques UniProtKB, toujours à l'aide du formulaire standard.
Recherchez cette fois-ci les protéines codées par un gène appelé Acam.
Quel est le nom du champ à interroger ?
Combien d'entrées trouvez-vous ?
Vous n'obtenez qu'une seuls des entrées trouvées précédemment. En fait, même si le nom de gène apparaît dans 1 entrée d'arabidopsis de la banque EMBL, ce nom de gène n'a pas été reporté dans toutes les entrées protéiques. Pour trouver les protéines codées par des entrées de l'EMBL, le plus simple est d'utiliser les liens entre banques.
Flèche vers le haut

III-3. Liens entre banques, à partir d'une requête

L'onglet "Results" donne accès à l'historique des requêtes effectuées depuis le début de la session. À partir de cette page, plusieurs actions peuvent être faites sur les requêtes.
Pour faire un lien d'une requête vers une autre banque, cliquez sur la case à cocher à côté de la requête qui porte sur le gène Acam dans l'EMBL. Puis, cliquez sur le bouton "Link". Il apparaît alors la liste des banques présentes dans SRS. Comme on recherche les protéines codées par les entrées EMBL dans UniProtKB, il faut cocher "UniProtKB" et cliquer sur le bouton "search" pour lancer le lien.
Combien d'entrées trouvez-vous ?
Ce nombre correspond-il à ce à quoi l'on s'attend ?
Flèche vers le haut

III-4. Création d'une vue

Dans SRS, il est possible de changer le format d'affichage d'une entrée, mais aussi celui d'une liste de résultats. Plusieurs formats sont proposés dans un menu déroulant situé au bas du bandeau de gauche, dans la partie "Display options".
Il est également possible de créer sa propre vue, si l'on a besoin d'afficher des informations particulières. Pour accéder à la création de vue, il faut aller dans l'onglet "Views".

Nous allons créer une vue. Cette vue va afficher le champ description et le champ organism de la banque EMBL, pour les listes de résultats.

Voici la démarche à suivre :
  • Choisir la banque "EMBL" dans la liste située en dessous du texte "Databanks to define a view for"
  • Saisir le nom "EMBLorg" dans la zone de texte du bandeau de gauche ("View name").
  • Lancer l'affichage de la liste des champs à l'aide du bouton "Create new view"
  • Cocher la case à gauche des champs "Description" et "Organism".
  • Valider la vue à l'aide du bouton "Save" situé dans le bandeau de gauche
  • Le formulaire de création de vue apparaît de nouveau, votre vue est créée.
La vue est maintenant accessible via le menu déroulant lié au bouton "View" qui apparaît dans le bandeau de gauche dans différents écrans de SRS.
Nous allons afficher les résultats d'une des requêtes faites précédemment avec cette vue. Pour cela, dans l'onglet "Results", sélectionnez la requête que vous souhaitez, sélectionnez notre vue dans le menu déroulant de la partie "Display options" du bandeau gris et cliquez sur le bouton "Rerun query".
Flèche vers le haut

III-5. Sous-entrées

Dans une entrée de l'EMBL, il peut y avoir plusieurs objets biologiques. Notamment, les entrées qui correspondent à des fragments de génomes contiennent plusieurs gènes. Or, on a souvent besoin d'extraire la séquence d'un gène particulier pour travailler dessus. Le découpage en sous-entrées permet d'isoler la séquence et l'annotation d'objet biologique particulier. L'affichage des sous-entrées est accessible via le formulaire étendu.

Nous allons interroger la banque EMBL, à l'aide du formulaire étendu. En faisant la requête suivante, vous allez afficher les gènes acam :

  • Champ : "FtKey" (sous-entrée : "Features") ; valeur "cds" sélectionnée dans la liste
  • Champ : "Gene" (sous-entrée : "Features") ; saisie : "acam"
Vous devez obtenir 5 sous-entrées qui correspondent à la séquence codant pour acam.

Quelle est la taille de ces séquences ? (utilisez la vue 'Complete Entries')
Dans les sous-entrées, il n'apparaît que les informations de la 'Feature table'. Pour accéder aux autres informations de ces entrées, on peut utiliser le lien "parent" présent dans chaque sous-entrée.
Retrouvez-vous les mêmes résultats que dans la question III.2 ?
Flèche vers le haut

IV. Manipulation des 2 systèmes d'interrogation en parallèle

Vous allez ouvrir les deux systèmes d'interrogation SRS et Entrez. Une liste de questions vous est proposée. Vous allez essayer de construire des requêtes qui y répondent à l'aide des deux interfaces. Il se peut que certaines requêtes ne soient possibles que dans une des deux interfaces.

1. Combien d'entrées ont été intégrées dans la banque de séquences nucléiques le 23 mai 2012 (attention au format de la date) ? depuis ce matin ?

2. Affichez la séquence du gène et de l'ARNm MAKORIN1, chez Seriola quinqueradiata au format FASTA, sur la même page.

3. Essayez d'extraire les séquences génomiques qui codent pour les protéines flo (flo1, flo2, ...) de Saccharomyces cerevisiae.