logo Essonne

Les statistiques à la traque du cancer du sein

  • Posté le : Samedi 1 Mai 2004
  • |
  • par : C. Colombeau
  • |
  • Expert : B. Prum
  • Actualisé le : Lundi 26 Mai 2008
  • |

Le gène qui prédispose au cancer du sein a été localisé de façon très précise au milieu de nos chromosomes grâce à la recherche conjuguée de généticiens et de… statisticiens essonniens. Ce travail revient à identifier une phrase qui serait cachée dans un livre comportant trois milliards de caractères.

Molécules d'ADNL’ADN peut être comparé à un texte qui serait écrit avec seulement quatre lettres : A (comme Adénine), C (comme Cytosine), T (comme Thymine) et G (comme Guanine).
© CNRS Photothèque

Si l'apparition du cancer est souvent liée aux comportements à risques (tabac, alcool, etc.), elle est malheureusement parfois une "affaire de famille". C'est le cas du cancer du sein qui fait partie des maladies dites à "composante génétique".

Sous la conduite de Bernard Prum, généticiens et mathématiciens du Génopole d'Evry ont rassemblé leurs savoir-faire afin d'évaluer les risques de voir se développer le cancer du sein. En effet, il existe dans notre patrimoine génétique un gène dit de " susceptibilité " au cancer du sein : si on le possède, on risque davantage de développer la maladie. Ce gène qui répond au nom étrange de "brca1" (pour breast, sein en anglais, et cancer) a été identifié en 1990. Savoir le localiser dans le génome ouvre les portes de la thérapie génique qui consiste à agir directement sur ce gène pour l'empêcher de nuire.

Détecter pour mieux guérir

Admettons qu'une grand-mère ait été victime d'un cancer du sein. Sa petite-fille veut savoir si elle aussi sera touchée par cette maladie. Hormis le fait de lui conseiller un comportement qui diminue les risques (vie sans tabac, alimentation surveillée, etc.), l'idéal serait de savoir si la jeune femme porte ou non le gène de prédisposition au cancer du sein que porte sa grand-mère. Cette détection permettrait de prévoir l'apparition de la maladie et d'augmenter les chances d'en guérir.
Pour cela, il faut étudier l'ADN de la jeune femme, une molécule présente dans chacune de ses cellules. L'ADN est formé d'une succession de bases (adénine, cytosine, thymine et guanine). On le compare souvent à un livre, qui serait écrit uniquement avec quatre lettres : A, C, T et G (première lettre du nom des bases). Ce livre compte trois milliards de lettres et contient deux types de "phrases" : les gènes, et l'espace intergénique dont on ignore encore le rôle mais qui représente 97 % du livre.

Identifier une phrase parmi trois milliards de lettres

Ces deux informations sont très différentes. Tout se passe comme si les gènes étaient écrits en français et l'espace intergénique en anglais. Pour trouver le gène brca1, il faut déjà savoir distinguer ces deux langues. C'est là que les statisticiens interviennent : par calcul, ils trouvent les passages écrits en français au cœur du livre, puis localisent précisément la "phrase" brca1 parmi celles qui sont écrites en français. Si brca1 est écrit cela signifie que la jeune fille porte le gène de prédisposition et que le risque d'être atteinte d'un cancer du sein est plus important.

Cette avancée permise par l'alliance entre statistique et génétique fera gagner un temps précieux dans la prise en charge du cancer du sein. Sans compter qu'elle est applicable aux autres maladies à composante génétique.

01.Probabilité et maladie

Le couple génétique-statistique a toujours fait bon ménage. Dès les premiers travaux de Mendel, le père de la génétique au XIXe siècle, le calcul de probabilité était omniprésent. Les mathématiques permettaient alors de comprendre le mode de transmission d'un caractère, par exemple le fait qu'un petit pois soit ridé ou lisse.

Aujourd'hui, ce sont des méthodes statistiques plus poussées qui localisent précisément un gène responsable d'un caractère, au cœur de notre patrimoine génétique. Elles nous permettent de comprendre quels phénomènes sont à l'origine d'une maladie héréditaire.
"Le but du statisticien est d'estimer la part de risque attribuable à la dimension génétique, de façon générale et individuelle", explique Bernard Prum, directeur du laboratoire Statistique et génome du Génopole d'Evry.
Généticiens au travailLes généticiens ont toujours été très proches des statisticiens : ce sont deux sciences complémentaires.
© Emmanuel Perrin/CNRS Photothèque
Ces études augmentent les connaissances sur notre génome
et visent à permettre la mise au point d'outils thérapeutiques qui agiraient directement sur nos gènes (la thérapie génique).
Dans le cas du cancer du sein, qui touche une femme sur huit en France, plusieurs années ont été nécessaires pour identifier un gène impliqué dans l'apparition de cette pathologie. Ce gène a été baptisé "brcal", (pour breast qui signifie "sein" en anglais et cancer). Le localiser de façon de plus en plus précise au cœur du génome a nécessité de conjuguer savoirs statistiques et savoirs biologiques. Deux disciplines désormais indissociables dans l'étude du génome humain.

Un gène qui augmente le risque de maladie

"Est-ce que le cancer du sein est une maladie génétique ? Existe-t-il des gènes qui prédisposent à cette maladie ? Ce sont les premières questions que l'on se pose. Comme pour tous les cancers, la réponse a longtemps été douteuse", explique Bernard Prum.
Au début du XXe siècle, c'est-à-dire aux premiers temps de la génétique, c'était par l'étude des pedigrees, sorte d'arbres généalogiques de la famille, que l'on déterminait le risque d'hériter d'une maladie. Dans le cas d'une maladie entièrement génétique, comme la mucoviscidose, la personne atteinte détient un gène responsable de la maladie au cœur de son patrimoine génétique. Alors que ce gène sera introuvable chez une personne saine.
Les gènes sont des portions d'ADN, la molécule d'information portée par les chromosomes présents dans chacune de nos cellules. L'ADN est une chaîne sur laquelle se succèdent quatre molécules différentes appelées bases, ou nucléotides, qui sont l'adénine, la cytosine, la thymine et la guanine (notées A, C, T et G). L'ADN est donc un texte (on parle de "séquence"), écrit dans un alphabet constitué de ces seules quatre lettres. Les techniques de séquençage du génome permettent de lire ce texte.

02.Rechercher une faute de frappe dans un texte incompréhensible

Le patrimoine génétique d'une personne, c'est-à-dire sa molécule d'ADN, représente environ trois milliards de bases, donc de lettres, qui se succèdent selon un ordre précis. Parmi ce texte, on compte environ 3 % de gènes, qui sont des séquences "codantes" : à partir d'un gène, la cellule fabrique une protéine (on dit qu'un gène "code pour une protéine"). Les 97 % du texte sont des séquences "non codantes" qui ne donnent aucune protéine et dont on ignore le rôle pour l'instant. Les gènes sont donc "perdus" au milieu de ce texte incompréhensible.

Gènes et protéineTrois pour cent des gènes, seulement, fabriquent une protéine…
© Gilbert de Murcia/CNRS Photothèque
Chez un être humain, il existe 30 000 gènes et parfois une seule faute de frappe dans un gène (un A au lieu d'un C par exemple) sera responsable de l'apparition d'une maladie, comme c'est le cas pour la mucoviscidose. Le gène modifié codera alors pour une nouvelle protéine, néfaste à la santé de l'homme.

Dans le cas du cancer du sein, on constate souvent une concentration de cas dans une même famille, ce qui ne signifie pas que le cancer est forcément héréditaire. Les individus d'une même famille partagent en effet les mêmes habitudes alimentaires, les mêmes expositions aux facteurs de risque... C'est par l'étude statistique des pedigrees de nombreuses familles qu'on a pu conclure que le cancer du sein est une pathologie "à composante génétique".

Autrement dit, il existe un gène de susceptibilité à cette maladie. Si une personne possède ce gène, les risques de développer un cancer du sein seront plus élevés. Mais on peut aussi subir un cancer du sein sans être porteur de ce gène. La maladie est alors due à des facteurs externes, par exemple le tabagisme ou une mauvaise alimentation.

Statistiquement, l'étude des pedigrees a montré ses limites. Les données sur un aïeul manquent souvent, surtout à propos des cancers, la durée de vie de l'époque n'étant pas aussi longue qu'aujourd'hui. Et pour savoir à quel endroit du génome ce gène de susceptibilité se trouve, il a fallu progresser dans les techniques moléculaires.

03.Des marqueurs au séquençage de l'ADN

C'est dans les années quatre-vingts que l'étape a été franchie, avec l'utilisation de marqueurs. Un marqueur est un fragment d'ADN qui sert de repère pour suivre la transmission d'un segment de chromosome d'une génération à l'autre. Le patrimoine génétique d'un être humain est rassemblé sur 23 paires de chromosomes. Dans le cas du cancer du sein, le but des scientifiques était double.

D'un point de vue général, il leur fallait trouver sur quel chromosome était localisé le gène de prédisposition au cancer. Et d'un point de vue individuel, ils voulaient savoir calculer plus précisément le risque d'hériter de ce gène.

On sait que chaque parent transmet la moitié de ses chromosomes à son enfant. Mais ces chromosomes transmis ne sont pas exactement les mêmes que ceux du parent car, lors de la transmission, les chromosomes se croisent et échangent des fragments entre eux. C'est le phénomène de recombinaison, qu'il est indispensable de prendre en compte si on veut estimer le risque d'hériter d'un gène responsable de maladie.
cancer sein6Chaque parent transmet la moitié de ses chromosomes à ses enfants. Et les chromosomes se recombinent entre eux. C’est pourquoi, a priori, le cancer du sein n’et pas une maladie héréditaire. C’est une maladie dite "à composante génétique".
© Frickr.com

L'utilisation de marqueurs permet de suivre cet échange de fragments de chromosomes d'une génération à une autre. On peut ensuite calculer la probabilité de recombinaison entre un marqueur et le gène de susceptibilité au cancer du sein, et en déduire ainsi la position de ce gène au cœur du génome. C'est en procédant de la sorte qu'en 1990, J.M. Hall a localisé le gène de prédisposition au cancer du sein sur le chromosome 17, et l'a nommé "brca1".

Depuis, les découvertes sur le fonctionnement du génome n'ont cessé de s'accumuler. "Par exemple, on est capable aujourd'hui de placer quelques milliers de "réactifs" sur une surface de verre d'un cm² (une puce) et de savoir ainsi quels gènes travaillent dans quels tissus, dans quelles conditions expérimentales ou… dans quelles cellules cancéreuses", précise Bernard Prum. Les techniques de séquençage ont également vu le jour depuis la découverte de brca1, et ont bien progressé. On peut désormais "lire" précisément la succession de toutes les lettres de l'ADN d'une personne, l'équivalent d'un texte qui comporterait trois milliards de lettres. Cette lecture a encore accru la masse de données sur le génome humain. Pour établir une corrélation entre un gène et une maladie, il faut donc faire appel à des méthodes statistiques complexes.

04.Markov à la rescousse

Depuis que les scientifiques savent "lire" l'ADN, des séquences de plusieurs milliards de lettres sont répertoriées dans les banques de données, accessibles par tout chercheur. Il arrive de nouvelles lectures quotidiennement, environ 30 millions de lettres par jour ! Et ces chiffres ne cessent d'augmenter. On sait aussi qu'un gène peut s'écrire de plusieurs façons. Ces différentes formes sont appelées allèles. Il faut déterminer quels allèles conduiront à l'apparition de la maladie.

Face à tant de données, le statisticien doit mettre en place un système qui prendra en compte tous les aspects connus et inconnus : les différentes façons d'écrire un gène, sa localisation présumée, le taux de recombinaison, etc. Le système mathématique utilisé dans ce cas est ce que les mathématiciens appellent "modèle à chaînes de Markov cachées". Ces équations permettent de décrypter l'ADN, en commençant par distinguer les 3 % de gènes parmi ses trois milliards de lettres. Chaque chaîne de Markov donne la traduction d'une donnée biologique. Par exemple, le fait de savoir que l'espace intergénique n'est pas écrit dans le même style que les gènes, que des régions riches en guanine et cytosine sont souvent suivies par des régions pauvres en ces deux nucléotides, etc. Puis toutes les chaînes sont incluses au modèle qui résout l'énigme de départ. Les statisticiens sont ainsi parvenus à localiser précisément le gène brca1.
Andrei Andreevich MarkovMathématicien russe (1856-1922) spécialiste des probabilités.
© Banque des Savoirs

On sait désormais que ce gène compte 5 592 lettres et on en connaît 80 allèles différents, mais il en existe peut-être davantage. Le statisticien doit ensuite établir la relation entre les divers allèles et l'apparition du cancer. Ce modèle à chaînes de Markov cachées a donc ouvert les portes à une infinité de calculs de risque et à une meilleure connaissance du génome.

Cette technique statistique permet, entre autres applications, de détecter plusieurs formes d'un gène responsable d'une maladie. Mais Bernard Prum met en garde : "En biologie, les statistiques doivent être utilisées à bon escient, les deux disciplines sont obligées d'avancer en parallèle." Sinon, gare au résultat erroné. Un statisticien peu expérimenté en biologie peut obtenir une conclusion qui serait en désaccord avec les lois qui régissent le génome.

05.Statistique et génétique : le duo de choc

La lutte contre le cancer n'est qu'un des thèmes dans lesquels les statistiques apportent une contribution grandissante à la génétique. Avant même d'avoir accès au génome, l'hérédité des caractères au sein d'une famille était déjà étudiée. Et elle suscite encore aujourd'hui beaucoup de méthodes statistiques.

Estimer le poids d'une récolte de céréales ou la quantité de lait que donnera une vache fait aussi appel à des modèles mathématiques pointus. Depuis quelques années, statisticiens et généticiens recherchent dans le génome les séquences impliquées et leurs interactions qui conduisent à obtenir de telles quantités de produits. Les retombées en agroalimentaire sont très vastes.

L'étude du génome permet aussi de calculer la proximité entre deux voire plusieurs individus. À partir de ces informations, on peut construire des arbres phylogénétiques : ils retracent l'histoire des espèces, et l'évolution des règnes animaux et végétaux depuis l'apparition de la vie sur Terre.

Au cœur de l'ADN, les statistiques, et l'infoVue de l’organisation des séquences d’ADNL'utilisation du microscope mathématique (transformée en ondelettes) pour analyser la complexité du génome permet d'extraire des informations structurelles sur le compactage de l'ADN dans le noyau cellulaire.
© Alain Arneodo/CNRS Photothèque
rmatique, sont indispensables pour reconstituer des séquences à partir de fragments, situer les gènes de façon de plus en plus précise, comparer des séquences provenant d'espèces différentes... L'homme possède environ 30 000 gènes, soit à peine deux fois plus que la mouche. L'influence des gènes entre eux est responsable de toutes les fonctions biologiques, de la construction de notre corps aux mécanismes physiologiques comme la respiration. Il reste donc un monde de connaissances à découvrir sur le fonctionnement de notre génome.

Un univers qui commence à dévoiler ses secrets grâce à l'alliance efficace des statistiques et de la génétique. "Dans les prochaines années, la compréhension du génome sera avant tout un gigantesque jeu de combinatoires dans un domaine où l'aléatoire est omniprésent", explique Bernard Prum. Perdus dans une montagne de données qui grandit sans cesse (près de 10 000 gènes sont "cachés" parmi les séquences qui alimentent chaque jour les banques de données), les généticiens ont besoin d'outils mathématiques performants pour traquer une information pertinente et utilisable par la médecine.

Ces dix dernières années (1998-2007) ont vu la réalisation de progrès techniques considérables permettant de mesurer, par exemple, 500 000 marqueurs (les SNP, single nucleotide polymorphism, soit la variation d'une seule lettre sur le chromosome) sur des milliers de personnes. Apparaissent aujourd'hui des techniques encore plus performantes qui rendront possible, à faible coût, le séquençage individuel de presque tout le génome de chaque malade.

Simultanément, on s'intéresse de plus en plus à des maladies polygéniques, pour lesquelles interviennent deux gènes, trois gènes, voire davantage. La complexité augmente alors énormément (envisager l'action possible de 600 gènes, c'est envisager 180 000 couples, 27 millions de triplets, etc.). On travaille également sur des "graphes" qui repèrent les innombrables interactions entre gènes, les protéines et toutes les "petites" molécules de la cellule (lipides, sucres,...).

Et le biologiste passe de la position d'observateur à celle d'acteur, commençant à envisager d'intervenir directement sur les mécanismes biochimiques, par la thérapie génique ou la thérapie cellulaire, sollicitant à nouveau le statisticien pour l'étude quantitative précise des résultats de ces interventions.

Grâce à la rapidité elle aussi croissante des ordinateurs, le statisticien peut envisager de répondre à cette demande plus abondante et plus complexe. Mais il doit pour cela développer des outils mathématiques nouveaux.

Restez connecté

Suivez-nous : Page Facebook Page Twitter

Lettre d'information :

Vidéo

Cette vidéo nécessite le plug-in gratuit Flash 8.
Il semble que vous ne l'avez pas.
Cliquer ici pour le télécharger

Interview de Xavier Raepsaet - La propulsion nucléaire spatiale

Portraits d'experts

  • Romina Aron Badin, les primates au coeur
  • Jacques-Marie Bardintzeff, une vie consacrée aux volcans
  • Catherine Charlot-Valdieu :  Home sweet home
  • Didier Labille, l’astronomie en amateur professionnel
Free download porn in high qualityRGPorn.com - Free Porn Downloads