Alignement de séquences

En bio-informatique, l'alignement de séquences est une manière de disposer les composantes des ADN, des ARN, ou des séquences primaires de protéines pour identifier les zones de concordance qui traduisent des similarités ou dissemblances de nature historique.



Catégories :

Génétique - Biomathématiques - Bio-informatique

En bio-informatique, l'alignement de séquences (ou alignement séquentiel) est une manière de disposer les composantes (nucléotides ou acides aminés) des ADN, des ARN, ou des séquences primaires de protéines pour identifier les zones de concordance qui traduisent des similarités ou dissemblances de nature historique. Les séquences alignées sont habituellement représentées comme des lignes d'une matrice. Des trous sont disposés de façon à aligner les caractères communs sur des colonnes successives.

L'alignement sert surtout à :

Quand deux séquences dans un alignement partagent un ancêtre commun, les discordances s'interprètent comme des points de mutation ou des lieux d'insertion ou de délétion.

Utilisation

Dans la compréhension du fonctionnement de la vie, les protéines jouent un rôle essentiel. On part par conséquent de l'hypothèse que des protéines comportant des séquences identiques risquent fort de posséder des propriétés physico-chimiques semblables. À partir de l'identification de similarités entre la séquence d'une première protéine dont on connaît le mécanisme d'action et celle d'une deuxième protéine dont on ne connaît pas le mécanisme de fonctionnement, on peut inférer des similarités structurelles ou fonctionnelles sur la séquence non connue et proposer de vérifier de manière expérimentale le comportement d'action supposé.

Représentations

Les alignements sont généralement représentés soit graphiquement soit en format texte. Dans la majorité des représentations des alignements séquentiels, les séquences sont rédigées en lignes, disposées pour que les composantes communes apparaissent dans des colonnes successives. En format texte, les colonnes alignés contiennent des caractères semblables ou identiques, indiqués par un dispositif cohérent de symboles. Un astérisque est utilisé pour montrer l'identité entre colonnes. Énormément de programmes utilisent de la couleur pour différencier l'information. Pour les ADN ou ARN, l'utilisation de couleur sert à différencier les nucléotides. Pour les alignements de protéines, elle permet d'indiquer les propriétés des acides aminés, ce qui aide à conclure sur la conservation du rôle d'un acide aminé substitué.

Quand plusieurs séquences sont mises en jeu, une dernière ligne est ajoutée pour conclure un consensus.

On peut distinguer deux types d'alignements qui changent suivant leur complexité :

Un alignement de séquence réalisé par ClustalW entre deux protéines humaines.

Les alignements séquentiels peuvent être apportés dans une large variété de formats de fichiers, dépendant par exemple du programme spécifique utilisé : FASTA format, GenBank, ... Cependant, dans les laboratoires de recherche, l'utilisation spécifique d'outils techniques peut diminuer le choix de format.

Score et matrices de comparaison

La plupart des méthodes d'alignement de séquences biologiques, et surtout les méthodes d'alignement de séquence de protéines cherchent à optimiser un score d'alignement. Ce score est relié au taux de similarité entre les deux séquences comparées. Il tient compte d'une part du nombre d'acide aminés semblables entre les deux séquences et d'autre part du nombre d'acides aminés identiques sur le plan physico-chimique. Quand dans les deux séquences, on trouve ainsi alignés deux acides aminés particulièrement proches, comme Lysine (K) et Arginine (R), on parle de remplacement conservatif (les chaînes latérales de ces deux acides aminés portent l'ensemble des deux une charge positive).

Ceci a obligation la définition formelle d'un score d'identité ou de similarité entre deux acides aminés donnés. Ceci a donné naissance à des Matrices de similarité, M, qui recensent la totalité des scores M (a, b) obtenus quand on substitue l'acide aminé a par l'acide b. Il existe plusieurs de ces matrices 20 x 20 (pour les 20 acides aminés), avec des modes de construction différents. On peut citer les plus classiques :

Dans chaque famille, il existe plusieurs séries de matrices, de stringence variable, et par conséquent plus ou moins tolérantes aux substitutions d'acides aminés.

Alignements locaux et globaux

Les alignements globaux sont plus fréquemment utilisés lorsque les séquences mises en jeu sont identiques et de taille égale. Une technique générale, nommée algorithme de Needleman-Wunsch est basée sur la programmation dynamique.

Les alignements locaux sont plus fréquemment utilisés lorsque deux séquences dissemblables sont soupçonnées de posséder des motifs identiques malgré l'environnement. L'algorithme de Smith-Waterman est une méthode d'alignement local générale basée aussi sur la programmation dynamique.

Avec des séquences suffisamment semblables, il n'y aucune différence dans les résultats.

Des méthodes hybrides, des méthodes semi-locales, s'avèrent utiles lorsque...

Alignement par paire

Les méthodes d'alignement par paires sont utilisées pour trouver les correspondances entre deux alignements de suites mais ne demandent pas une précision extrême.

Programmation dynamique

Alignement séquentiel multiple

Méthodes progressives

Trouver le motif

Alignement structurel

SSAP

Analyse phylogénétique

Méthodes et algorithmes

Les alignements par paires peuvent être réalisés de manière complètement rationnelle, en utilisant les algorithmes de programmation dynamique. La méthode la plus utilisée est connue comme l'algorithme de Needleman-Wunsch (J Mol Biol. 1970 Mar;48 (3)  :443-5) qui exécute le meilleur alignement global entre deux séquences. Pour obtenir un alignement local optimal, la méthode a été développée par Smith et Waterman (J Mol Evol. 1981;18 (1)  :38-46). Des implémentations de ces algorithmes se retrouvent surtout dans la suite logicielle OpenSource EMBOSS, respectivement sous les noms "needle" et "water".

FPGA Version accélérée

D'autres travaux récents réalisés par Progeniq démontrent l'accélération de l'algorithme de Smith-Waterman en utilisant une plate-forme de calcul reconfigurable basée sur des morceaux de FPGA. Le FPGA a basé la version des speedups des expositions FPGA d'algorithme jusqu'à 100x au-dessus d'un processeur de 2.2 gigahertz Opteron. White Paper

Recherche sur Google Images :



"un alignement de séquences"

L'image ci-contre est extraite du site librairiedemolecules.education.fr

Il est possible que cette image soit réduite par rapport à l'originale. Elle est peut-être protégée par des droits d'auteur.

Voir l'image en taille réelle (824 x 492 - 59 ko - gif)

Refaire la recherche sur Google Images

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Alignement_de_s%C3%A9quences.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 17/09/2009.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu