Cet article est la traduction de l’article de John Maynard Smith sur le concept d’information en biologie, dans lequel il développe son point de vue sur cette notion d’information intentionnelle, et sur l’utilité de l’analogie informationnelle. Il pourrait sembler à première vue que JMS emploie ici une approche pragmatiste de la vérité, mais les dernières sections tendent à indiquer qu’il croyait réellement à cette idée d’information portée par le génome; que, par substance, le génome porte une information.

Maynard-Smith J. 2000. The Concept of Information in Biology. Philosophy of Science 67:177–194.

Table des matières

  1. L’analogie de l’information
  2. Weismann et la non-hérédité des caractères acquis
  3. Le code génétique
  4. Symboles et « Gratuité »
  5. La quantification de l’Évolution
  6. Le génome est-il un programme de développement ?
  7. La Théorie de l’Évolution et le Concept d’Information en Biologie
  8. Conclusions

John Maynard Smith - Le Concept d’Information en Biologie

« En biologie, l’usage de termes informationnels implique l’intentionnalité, en ce qu’à la fois la forme du signal et la réponse qui lui est donnée ont évolué par la sélection. Où l’ingénieur pense dessein, le biologiste voit sélection naturelle. »

Une idée centrale en biologie contemporaine est celle de l’information. La biologie du développement peut être vue comme l’étude de la manière dont l’information du génome est traduite en une structure adulte, la biologie évolutive comme celle de la manière dont l’information en est venue à être dans le génome en premier lieu. Notre excuse pour écrire un article sur des sujets aussi variés que l’origine des gènes, des cellules et du language tient au fait qu’ils sont tous liés au stockage et à la transmission d’informations. (Szathmary & Maynard Smith, 1995)

 

Ces [concepts d’information] ne s’appliquent pas à l’ADN parce qu’elles présupposent un véritable système d’information, composé d’un codeur, d’un émetteur, d’un récepteur, d’un décodeur et d’un canal d’information entre eux. De tels composants n’apparaissent pas dans les systèmes chimiques. Décrire les processus chimiques par métaphores linguistiques telles que « transcription » ou « traduction » n’altèrent en rien la nature chimique de ces processus. De plus, même s’il existait une chose telle que la transmission d’information entre molécules, elle serait quasi-non-bruitée (substantiellement non-aléatoire), de telle sorte que le concept de probabilité, au cœur de la théorie de l’information, ne s’applique pas à cette sorte de transfert d’information supposé.

Il est clair que ces citations montrent qu’il y a matière à discuter. Je ne m’intéresserait ici seulement à l’utilisation des concepts d’information en génétique, en évolution et dans le développement, et pas en neurobiologie, domaine que je n’ai pas de compétences pour débattre.

L’analogie de l’information

L’usage familier des termes informationnels est largement répandue en biologie moléculaire. Transcription, traduction, code, redondance, synonyme, messager, édition, correction, librairie — ce sont tous des termes techniques en biologie. Je ne suis pas au courant de confusions provenant de la non-compréhension de leurs significations. En fait, les similarités entre leurs significations se référant à la communication humaine et à la génétique sont étonnamment proches. Un exemple suffira. Par « correction », la séquence de quatre bases d’un brin d’ADN néo-synthétisé est comparée à la séquence correspondante du brin matrice. S’il y a un « mésappariemment » (c’est-à-dire s’il la base du brin neuf n’est pas le complément de la base du brin ancien selon les règles d’appariement A-T et C-G), alors elle est enlevée et remplacée par la base correcte. La similarité de ce processus avec celui de la comparaison des lettres de deux copies — en principe une par une — et la correction si elles différent, est évidente. Il est aussi pertinent de souligner qu’en décrivant l’activité de correction moléculaire, j’ai de la difficulté à éviter d’utiliser les mots « règles » et « correcte ».

Les biologistes moléculaires font donc réellement usage des analogies informationnelles dans leurs travaux quotidiens. Les analogies sont utilisées en science de deux façons. Occasionnellement, il y a un isomorphisme formel entre deux systèmes physiques différents. Il y a cinquante ans, je travaillais comme ingénieur aéronautique. L’une des choses qu’on voulait savoir, à l’étape de conception, était le mode de vibration mécanique du futur avion. Pour le découvrir, nous construisîmes un analogue électrique, dans lequel la masse de différentes parties de la structure était représentée par l’inductances de bobines dans le circuit, et l’élasticité par la capacité des condenseurs. La vibrations du circuit prédisaient donc les vibrations de l’avion. La justification de cette procédure était que les équations décrivant les vibrations électriques et mécaniques sont identiques. Dans les faits, nous avions construit un ordinateur analogique spécialisé. […]

Les cas d’isomorphisme exact sont plutôt rares. Bien plus fréquente est la reconnaissance de similarité qualitatives, utiles dans la compréhension d’un système inconnu par comparaison avec un système familier. Un exemple classique est l’assimilation par Harvey du cœur à une pompe : il est peu probable qu’il eut eu cette vision s’il n’avait pas été familier avec l’usage technique des pompes. Un exemple plus controversé est le fait qu’et Darwin et Wallace attribuent leur théorie de l’évolution par la sélection naturelle à la lecture de l’« Essai sur le principe de population » de Malthus. Un troisième exemple plus trivial est que j’ai été conduit à inventer la théorie des jeux évolutifs par analogie avec la théorie des jeux classique, qui analyse le comportement humain : l’essentiel que j’ai tiré de l’analogie était une notation mathématique commode. Le point est que les scientifiques ont besoin que leurs idées viennent d’ailleurs. Bien souvent, les biologistes les ont par analogies avec des technologies contemporaines, parfois des sciences sociales. Il est donc naturel qu’au cours du vingtième siècle, ils aient dû tirer leurs analogies de machines qui transforment l’information. Le premier usage délibéré d’une telle analogie est dû à August Weismann à la fin du XIXe siècle, et décrite plus bas. Bien sûr, comme je vais le démontrer, si l’analogie est seulement qualitative, elle peut induire en erreur tout comme elle peut éclairer.

Mais d’abord il me faut répondre aux critiques de Mahner et Bunge citées au début de cet article. D’abord, est-il vrai qu’il n’y a ni codeur, ni émetteur, ni récepteur, ni décodeur ni canaux d’information ? Cette phrase attire bien l’attention sur la façon dont la transcription et traduction génétique diffèrent d’exemples typiques de communication humaine. Dans le cas humain, un message est d’abord codé puis décodé. Dans le cas génétique, bien que nous pensions le message sous forme codée dans l’ARN messager puis traduit par le ribosome en la séquence d’acides aminés d’une protéine, il est peut-être étrange de penser à cette étape comme du -codage, puisqu’elle n’était pas « codée » depuis la protéine vers l’ARNm en premier lieu. Je ne crois pas que cela détruise l’analogie entre le cas génétique et le second cas de la séquence humaine. Mais elle soulève cependant une question difficile. S’il y a de l’« information » dans l’ADN, copiée dans l’ARN, comment en est-elle venue là ? Y-a-t’il une analogie entre l’origine de l’information dans l’ADN et dans le code Morse ? Peut-être. En langage humain, le « codeur » est celui qui convertit une signification en une séquence de phonèmes, ensuite convertie en code Morse. En biologie, le codeur est la sélection naturelle. Ce parallèle semble tiré par les cheveux, voire carrément fausse pour un non-darwiniste. Mais c’est la sélection naturelle qui, par le passé, a produit parmi toutes les séquences possibles la séquence de bases, qui, par le canal informationnel déjà décrit, spécifie une protéine « signifiante », en ce sens qu’elle fonctionne d’une façon qui favorise la survie de l’organisme. Où l’ingénieur voit dessein, le biologiste voit sélection naturelle.

Quid de la prétention qu’un processus chimique n’est pas un signal qui porte un message ? Et pourquoi pas ? Si un message peut être porté par une onde sonore, électromagnétique ou les courants fluctuants d’un fil de fer, pourquoi n’en serait-il pas ainsi pour un ensemble de molécules chimiques ? Une avancée majeure de la théorie informationnelle est que la même information peut être transmise par différents porteurs physiques. Jusqu’à présent, les ingénieurs n’ont pas utilisé de porteurs chimiques, essentiellement à cause de difficultés d’obtention et de stockage d’information dans un milieu chimique. Le monde du vivant a résolu ce problème.

Enfin, qu’en est-il de l’objection que le concept de probabilité, central en théorie de l’information, est manquant dans les applications biologiques ? On pourrait très bien arguer du fait que l’information ne peut alors être transmise par le mot imprimé, puisque l’impression est véritablement non-bruitées. Dans la théorie de l’information, la mesure de Shannon de la quantité d’information Σp logp est une mesure de la capacité d’un canal à transmettre l’information, donné par le nombre de messages différents qui peuvent être potentiellement transmis. Les aspects probabilistiques de la théorie de Shannon ont été utilisés en neurobiologie mais rarement en génétique, puisqu’il nous suffit de supposer une équiprobabilité. Sachant une séquence de n symboles, chacun d’eux pouvant être l’une parmi quatre alternatives équiprobables, la mesure de Shannon donne 2n bits d’information. Dans le message génétique, il y a quatre bases alternatives. Si elles étaient également probables, et si chaque symbole était indépendant de ses voisins, la quantité d’information serrait de 2 bits par base. En fait, les bases ne sont pas équiprobables, et les voisines lui sont liées, donc la quantité d’information est réduite dans une certaine mesure ; cette réduction n’est pas très grande, et usuellement ignorée : une réduction plus grande résulte de la redondance du code. En bref, on ne s’occupe pas de la mesure de Shannon, puisque 2 bits par base suffisent quasiment, mais on le pourrait si on le voulait. En l’occurence, Gatlin (1972) a écrit un livre entier sur l’application des indices de Shannon aux messages génétiques. Je ne suis pas sûr qu’il en ressorte quoi que ce soit, mais elle montre au moins que le concept de probabilité s’applique bien au code génétique. Il y a bien isomorphisme formel, plus que simplement une analogie qualititative.

Il y a cependant des difficultés à l’application de théories informationnelles en génétique. Elles proviennent moins de la transmission de l’information que de leurs significations. Cette difficulté n’est pas réservée à la génétique. Dans les premiers temps, il était de coutume d’affirmer que la théorie ne s’occupait pas de signification, seulement de la quantité d’information: selon Weaver (Shannon et Weaver, 1949), « ce mot “d’information” en théorie de la communication a trait moins à ce que l’on dit vraiment qu’à ce qu’on pourrait dire. » En biologie, la question devient : Comment l’information génétique spécifie forme et fonction ?

Je décrit maintenant cinq tentatives, plus ou moins réussies, d’applications des concepts d’information en biologie, en finissant par le problème de la forme biologique. Dans la section de conclusion, j’utilise l’analogie entre l’évolution et le dessein d’ingénierie par les algorithmes génétique pour suggérer des façons dont les idées de la théorie de l’information peuvent être appliquée à la biologie.

Weismann et la non-hérédité des caractères acquis

L’affirmation par Weismann que les caractères acquis ne sont pas transmis est l’un des moments décisifs de l’histoire de la biologie évolutive. Darwin lui-même croyait aux « effets de l’usage et de l’abandon ». Qu’est-ce qui a conduit Weismann à une notion si contre-intuitive ? Jusqu’à ce que je lise, par hasard, la Théorie de l’Évolution (Weismann 1904), je pensais que ses raisons étaient d’abord que la lignée germinale est séparée tôt du soma, et ensuite que si l’on coupe la queue des souris, leur descendance a une queue normale. Je pensais que c’étaient là de piètres raisons. Il n’y a pas de séparation de la lignée germinale et somatique chez les plantes, et pourtant elles ne sont pas plus suspectes de transmettre leurs caractères acquis que les animaux ; dans tous les cas, si l’énergie et la matière nécessaires à la croissance des cellules germinales proviennent du soma, qu’est-ce qui empêche le soma d’affecter la lignée germinale ? Quant aux queues de souris, ça n’est pas la sorte de caractères acquis qu’on pourrait s’attendre à être transmis …

J’avais évidemment mal jugé Weismann. Il y a deux longs chapitres de Evolution Theory dédiés à la non-hérédité des caractères acquis. Le seul argument qui n’est pas utilisé dans ces chapitres est celui de la séparation de la lignée germinale: il importait à Weismann pour d’autres raisons. Son argument cental est qu’il y a de nombreux traits qui sont manifestement adaptatifs, mais qui n’auraient pu évoluer par des moyens Lamarckiens, parce qu’ils n’auraient pu survenir d’une adaptation individuelle en premier lieu: un exemple est celui de la forme de la cuticule d’insecte, qui est durcie avant d’être utilisée, et donc ne peut s’adapter au cours de durée de vie d’un individu unique. Il s’ensuit que des adaptations peuvent évoluer sans hérédité Lamarckienne. Mais ça ne prouve en rien que les caractères acquis ne sont pas transmis. Son dernier argument pour attester qu’ils ne le sont pas étaient qu’il ne pouvait concevoir de mécanisme par lequel cette transmission aurait lieu. Supposons qu’un forgeron développe de gros muscles aux bras. En quoi cela influence la croissance de ses cellules spermatiques, d’une manière telle qu’elle altère le développement d’un œuf fertilisé par ledit sperme, tant et si bien que le fils du forgeron développe également de gros muscles ?

En expliquant son incapacité à imaginer un tel mécanisme, il écrivit que la transmission d’un caractère acquis est « très proche de la supposition qu’un télégramme en anglais, pour la Chine, y est reçu en chinois » (en fait, il utilise cette analogie du télégramme deux fois, quoique dans des mots différents). C’est remarquable pour plusieurs raisons. Il reconnait que l’hérédité s’occupe de la transmission d’une information, pas seulement de matière ou d’énergie. Secundo, il utilise une analogie avec un canal de transmission d’information spécifique, le télégramme. Tertio, bien que cette vision a eu une importance considérable pour la biologie, son argument est fallacieux dans un sens. Après tout, si le gamète peut affecter la taille du muscle, pourquoi le muscle n’affecterait pas le gamète ? En fait, la plupart des appareils de transmission d’information que nous utilisons aujourd’hui transmettent dans les deux sens ; ils n’auraient guère d’utilité s’ils ne le pouvaient. Mais certains ressemblent au système génétique en ce qu’ils ne transmettent que dans un sens. Un lecteur CD convertit les sillons d’un disque en sons, mais on ne peut produire un disque en chantant sur le lecteur. Je crois que la non-hérédité des caractères acquis est plus un fait contingent, souvent vrai mais pas toujours, qu’une nécessité logique. Dans la mesure où il est vrai, il suit du « dogme central » de la biologie moléculaire, qui veut que l’information voyage depuis les acides nucléiques vers les protéines, mais pas des protéines aux acides nucléiques.

Qu’en est-il alors de la queue des souris ? Weismann nous dit que, lorsqu’il exposa son idée pour la première fois à un congrès zoologique en Allemagne, on lui répondit « mais ça doit être faux: tout le monde sait que, si la queue d’une chienne est amputée, ses chiots ont la queue tordue » — un exemple intéressant de ce qu’Haldane appelait le théorème de Tante Jobiska, « C’est un fait que tout le monde sait. » L’expérience des souris a été conduite pour réfuter cette objection.

L’incapacité à comprendre que l’hérédité traite d’informations, et que le transfert d’information est irréversible, a de malheureuses conséquences, comme je le sus à mes dépens. Jeune homme, j’étais Marxiste et membre du parti communiste. Ça n’est pas quelque chose dont je suis fier, mais c’est pertinent ici. Philosophiquement, le marxisme a peu d’inclinations vers la notion d’un gène qui influence le développement, mais qui est lui-même non-affecté: ça n’est pas dialectique. Je ne suggère pas que son marxisme était l’unique raison des visions de Lysenko — il avait d’autres motifs moins honorables — mais je crois que le marxisme y est pour quelque chose. Certainement, le marxisme me mettait mal à l’aise avec les visions de Weismann. J’ai passé six mois à conduire une expérience pour les tester. La capacité d’une Drosophile adulte à supporter de hautes températures dépend de la température à laquelle l’œuf est incubé. Sans surprise, je découvris que l’adaptation n’était pas transmise. Pour moi, l’exercice ne fut peut-être pas totalement une perte de temps.

Le code génétique

L’analogie entre le code génétique et certains codes de conception humaine comme le code Morse ou ASCII est trop évidente pour nécessiter une justification. Mais certains attributs sont à souligner :

  1. La correspondance entre un triplet donné et l’acide aminé qu’il code est arbitraire. Bien que le décodage dépende nécessairement d’une chimie, la machinerie de décodage (ARN de transferts, les enzymes d’assignation) peut être altérée par l’assignation. En effet, certaines mutations sont létales parce qu’elles altèrent l’assignation. En ce sens, le code est symbolique — un point sur lequel je reviendrais.
  2. Le code génétique est peu commun en ce qu’il code pour sa propre machine de traduction.
  3. Les scientifiques ayant découvert la nature du code, et de la machinerie de traduction, avaient constamment en tête l’analogie du codage, ce qui ressort nettement du vocabulaire qu’ils utilisèrent pour décrire leurs découvertes. Parfois, ils furent induits en erreur par l’analogie. Un exemple en est celui de la croyance que le code serait décrypté de la même façon que le linéaire B — en découvrant la pierre de Rosette. Il manquait une protéine dont la séquence d’acides aminés était connue, spécifiée par un gène dont la séquence nucléotidique était connue. En fait, le code ne fut pas décrypté de cette façon. Il fut décodé par une « machine de traduction », une partie de machinerie cellulaire qui, lorsqu’on lui fournit un ARN de séquence connue, synthétiserait un peptide dont on peut déterminer la séquence. Mais, malgré ces fausses pistes, l’analogie informationnelle conduisit à la solution. Si le problème avait plutôt été traité comme un problème de chimie des interactions protéines-ARN, nous pourrions être toujours en attente d’une réponse. Dans un article que j’ai découvert alors que ce papier était en passe d’être terminé, Sarkar (1996) décrit en détail l’histoire de l’idée d’un « code sans virgule » (Crick et al., 1957). Je suis d’accord avec lui sur le fait que cette idée brouilla les pistes plutôt qu’elle ne les éclaira, bien que j’ai suggéré ailleurs (Maynard Smith, 1999) que ce fut l’une des plus intelligentes idées finalement fausse de l’histoire des sciences. Mais elle était fausse. Cela illustre bien cette idée que les analogies en science peuvent induire en erreur comme elles peuvent éclairer. Mais je crois que Sarkar est trop impatient de pointer les échecs de cette analogie informationnelle et d’atténuer ses succès. Par exemple, il n’explique pas que la découverte (Crick et al, 1961) de la relation entre ADN et protéine — comme un triplet dans lequel le « cadre de lecture » correct est maintenu en comptant précisément par trois — découle également de l’analogie du code. Il est fascinant que Francis Crick fut l’un des auteurs des deux articles. En deuxième exemple, l’argument de Sarkar selon lequel le code ne permet pas de prédire la séquence d’acide aminé (à cause de complications comme les introns, les variations du code universel, etc…) est franchement érronée ; les biologistes le font couramment.
  4. Il est possible d’imaginer que l’évolution d’organismes complexes et adaptés sans un code génétique. Godfrey-Smith (1999) imagine un monde dans lequel les protéines jouent le même rôle central que celui qu’ils ont dans notre monde, mais dans lequel la séquence d’acide aminé est répliquée sans encodage. En bref, il suggère que les protéines pourraient servir de matrices pour elles-mêmes, en utilisant 20 molécules « connectantes », chacune avec deux extrémités similaires, l’une adhérant à un amino-acide dans la matrie, l’autre à un amino-acide similaire dans le brin néo-synthétisé. Dans un tel système, il n’y aurait pas de « code » connectant un ensemble de molécule à un autre ensemble de molécules chimiquement différentes. Je suis d’accord avec l’idée qu’un tel monde est concevable, et qu’il lui manque un code. J’argue cependant plus bas que la notion d’information, et la distinction entre les causes génétiques et environnementales du développement, seraient tout aussi pertinentes dans le monde de Godfrey-Smith que dans le monde réel.

Symboles et « Gratuité »

Le hasard et la nécessité de Jacques Monod n’a pas reçu un très bon accueil du côté des philosophes, particulièrement dans le monde Anglo-Saxon. Mais il contenait au moins une idée profonde, celle de la gratuité. Jacob et Monod (1959) avaient découvert la façon dont un gène pouvait être régulé. Dans les faits, une protéine « répressive » codée par un second gène « régulateur », se lie au gène et l’« éteint ». Le gène peut être « allumé » par un « inducteur », généralement une petite molécule, le lactose dans le cas de ce gène. L’inducteur se lie à la protéine régulatrice, altère sa forme de telle sorte que la protéine ne se lie plus au gène et donc ne le réprime plus. Le point que Monod souligne est que la région de la protéine régulatrice à laquelle se lie l’inducteur est différente de celle qui se lie au gène ; l’inducteur a un effet en altérant la forme de la protéine. Il en résulte que, en principe, n’importe quel inducteur peut « allumer » ou « éteindre » n’importe quel gène. Évidemment, toutes ces réactions obéissent aux lois de la chimie, mais il n’y a pas de nécessité chimique dans la relation entre un inducteur les gènes qu’il régule. C’est cette nature arbitraire de la biologie moléculaire que Monod appelle la gratuité.

Je pense qu’il serait plus éclairant d’exprimer la conception de Monod en disant que les inducteurs et les répresseurs sont « symboliques »: dans la terminologie de la sémiotique, il n’y a pas de connection nécessaire entre leur forme (composition chimique) et leur sens (gènes allumé ou éteint). D’autres aspects de la biologie moléculaire sont symboliques dans le même sens: par exemple, le codon CAC code l’histidine mais il n’y a pas de raison chimique pour laquelle il ne coderait pas la glycine. (En passant, j’avais trouvé cette distinction sémiotique entre le symbole, l’icône et l’index très éclairante sur la communication animale.)

Sarkar (1996) discute de façon intéressante la notion de gratuité de Monod. Il interprète Monod en arguant que la « conception cybernétique de la régulation du gène a plus de valeur explicative qu’un alternative purement physicaliste, » mais ajoute que cette opinion n’est justifiée que si les cas de régulation différents de celui de l’opéron lactose étudié par Monod sont de même nature. Il conclut que les « tentatives de généraliser le modèle de l’opéron à celui de la régulation des gènes eucaryotes n’ont montré aucune trace de succès pour l’instant ». Je crois qu’il serait difficile de trouver un généticien du développement d’accord avec lui. Comme je l’explique plus bas, les idées de Monod sont les bases de la recherche dans ce champ.

Les linguistes défendraient que seul un langage symbolique peut convoyer un nombre infiniment grand de signification. Je pense que c’est la nature symbolique de la biologie moléculaire qui rend possible un nombre indéfiniment grand de formes biologiques. Je retournerai au problème de la forme plus bas, mais d’abord je décris la façon dont l’analogie informationnelle m’a conduite dans une impasse, tout en me préparant aux découvertes récentes en génétique du développement.

La quantification de l’Évolution

Dans les années 1960, il me vint l’idée qu’en utilisant la théorie de l’information, il serait possible de quantifier l’évolution simultanément à trois niveaux — génétique, sélectif et morphologique. L’aspect génétique est le plus simple : la capacité du canal est, approximativement, deux bits par base. Les choses se compliquent en présence de grandes quantités d’ADN répétitif, mais on peut s’en accommoder. Le niveau sélectif est plus délicat, mais pas sans espoir. Supposons qu’on se demande quel niveau de sélection est nécessaire pour programmer une séquence initialement aléatoire. Si, raisonnablement, la suppression sélective de la moitié de la population est vue comme l’ajout d’un bit d’information, alors deux bits de sélection sont requis pour programmer chaque base. L’inconvénient est que l’évolution ne démarre pas d’une séquence aléatoire. Un gène préalablement programmé (ou un ensemble de gènes) est plutôt dupliqué, à la suite de quoi l’une des copies est altérée par la sélection. Cependant, il est encore possible d’estimer grossièrement le niveau de sélection, en bits, nécessaire pour programmer un génome entier. Kimura (1961) en utilisant l’idée d’Haldane (1957) du « coût de la sélection » a fourni un aperçu élégant de la façon dans la sélection naturelle accumule de l’information génétique dans le génome.

L’étape la plus difficile est celle de la quantification morphologique, mais avant de traiter cette question, je voudrais suggérer que la quantification de l’information génétique et sélective dans la même unité a une application triviale. Il arrive parfois que certaines personnes, souvent mathématiciennes, annoncent qu’il n’y a pas eu assez de temps depuis l’origine de la Terre, pour que la sélection naturelle produise l’étonnante diversité et complexité observable. Ces assertions ont ceci de curieux que, bien qu’elles semblent quantitatives à première vue, n’indiquent jamais de combien de temps il faudrait augmenter cette durée : de deux fois, d’un million de fois ? La seule façon que je connaisse de proposer une réponse quantitative est de montrer que, si l’on estime, même grossièrement, la quantité d’information dans le génome, et la quantité qui aurait pu être programmée par la sélection en 5 Ga, il y a eu largement assez de temps. Si, en se rappellant que pour l’essentiel du temps, nos ancêtres étaient microbiens, nous supposons une moyenne de 20 générations par an, la sélection aurait eu dix fois le temps de programmer le génome. Mais cela suppose que le génome contienne suffisamment d’information pou spécifier la forme de l’adulte. C’est une supposition raisonnable, puisqu’il est difficile de voir de quel autre endroit l’information pourrait provenir.

Combien d’information est nécessaire pour spécifier la forme adulte ? Clairement, il n’est nul besoin de spécifier la nature et la position de chacun des atomes du corps, car tout n’est pas spécifié. Cela suggère qu’on se demande en fait de combien d’information il est requis pour spécifier les attributs partagés par deux individus du même génotype — par exemple, les jumeaux monozygotes. Pour simplifier, imaginons une paire d’organismes bi-dimensionnels (il est alors facile d’extrapoler l’argument à trois dimensions). Imaginer une matrice de points noirs et blancs (des pixels dans les faits: à nouveau, il est possible d’étendre l’argument à plus de deux sortes de pixels.) Commencer par de petits pixels: peu à peu, les jumeaux identiques vont différer. Augmenter graduellement la taille des pixels, jusqu’à ce que les images des jumeaux identiques soient les mêmes. Dès lors, l’information requise est égale au nombre de pixel dans l’image.

Il suffit de décrire la méthode pour comprendre où le bât blesse. Imaginez trois images en noir et blanc: la première un ensemble aléatoire de point, la seconde La Joconde, et la troisième un cercle noir sur fond blanc. La première impose une information égale au nombre de pixel. La Joconde pourrait être décrite en moins de bits, grâce à la corrélaction entre points voisins, mais requiert toujours un grand nombre d’information. Le cercle pourrait être déterminé en disant que, si (x-a)² + (y-b)² <r², alors noir, sinon blanc (où ab est le centre du cercle et r son rayon). On pourrait arguer que ça n’est pas pertinent, puisque les gènes ignorent tout de la géométrie spatiale, mais à tort. La plupart des formes simples — un cercle, par exemple — peuvent être engendrées par des processus physiques simples, de sorte qu’il suffit au génome de spécifier un nombre restreint de paramètres physiques: par exemple, les taux de réactions peuvent être déterminés par certaines enzymes.

Là où l’approche « pixel » est incomplète, c’est que le génome n’est pas une description de la forme adulte, mais un ensemble d’instructions pour le construire: c’est une recette plutôt qu’un plan.1

Le génome est-il un programme de développement ?

Il n’y a, je crois, aucune raison sérieuse de ne pas parler de code génétique, ou d’affirmer qu’un gène code la séquence d’acides aminés d’une protéine. Certainement, un gène a besoin de la machinerie de traduction de la cellule — ribosomes, ARNt, etc… — mais ça n’invalide en rien l’analogie: un programme informatique a besoin d’un ordinateur avant de pouvoir faire quoi que ce soit. Pour un biologiste de l’évolution, l’idée est que la machinerie de traduction peut rester constante dans une lignée (quoiqu’elle requiert un programme génétique invariant la déterminant), et pourtant des changements dans le programme génétique peuvent induire des changements dans les protéines.

Il pourrait être objecté qu’un gène ne spécifie que la séquence d’acides aminés d’une protéine, mais pas sa forme tridimensionnelle. Dans la plupart des cas, dans des conditions physico-chimiques appropriées, la séquence linéaire d’acides aminés s’auto-replie. Le repliement est un processus dynamique complexe: il est pour l’instant impossible de prédire la structure tridimensionnelle à partir de la séquence. Mais les lois de la chimie et de la physique n’ont pas à être codées par les gènes: elles sont données, et constantes. Dans l’évolution, les changements dans les gènes peuvent causer des changements dans les protéines, lors même que les lois de la chimie restent inchangées.

Cependant, un organisme est plus qu’un sac de protéine spécifique. Le développement implique que différentes protéines soient synthétisées à différents moments, dans différents lieux. Une révolution est en train de se produire sur la compréhension de ces processus. L’image qui s’en dégage est celle d’une hiérarchie complexe de gènes régulant l’activité d’autres gènes. Aujourd’hui, la notion de gènes émettant un signal à destination d’autres gènes est tout aussi centrale que la notion de code génétique l’était quarante ans plus tôt.

Commençons par une expérience (Halder et al., 1995). Il existe un gène, le gène eyeless, chez la Souris. Les mutations de ce gènes (homozygotes) impliquent que la souris se développe sans yeux, suggérant que la forme sauvage de ce gène joue un rôle quelconque dans le développement de l’œil. Ce gène normal de Souris a été transféré à la Drosophile, et activé à divers endroits du développement de la mouche. S’il est activé dans une jambe en développement, un œil s’y développe à la place; évidemment pas un œil de Souris, mais un œil composé de Drosophile. Cela suggère que le gène envoit le signal « Fabrique un œil ici »; plus précisément, il active localement d’autres gènes impliqués dans le développement de l’œil.

Pour quelles étranges raisons un gène de Souris fonctionne-t-il dans une mouche ? Sans doute, l’ancêtre commun de la Mouche et de la Souris, quelque 500 Ma plus tôt, possédait l’ancêtre de ce gène : cela est confirmé par la présence chez Drosophila d’un gène de séquence très similaire à celle du gène eyeless de la Souris. Quel était le rôle de ce gène dans ce lointain ancêtre ? Nous ne le savons pas, mais il est probable que l’ancêtre commun avait une paire d’organes sensitifs sur la tête — peut-être une ou un amas de cellules photo-sensibles — et que la différentiation de ces cellules, à partir de cellules épidermiques indifférenciées, était déclenchée par l’ancêtre de ce gène.

Cela soulève des questions sur la nature des signaux qui transitent. J’ai défendu plus haut l’idée que les inducteurs et les répresseurs d’activité génique sont symboliques, en ce sens qu’il n’y a pas de connection chimique nécessaire entre la nature de l’inducteur et ses effets. Dans l’expérience originale de Jacob et Monod, les gènes métabolisant le lactose étaient activés par la présence de lactose dans le milieu. C’est évidemment adaptatif ; il n’y aurait aucun intérêt à activer des gènes s’ils n’avaient aucun rôle à jouer. Mais s’il avait été avantageux du point de vue sélectif pour ce gène d’être activé par un autre sucre, disons le maltose, alors les gènes régulateurs en questions auraient sans nul doute évolué.

Pourtant l’expérience décrite plus haut suggère que les gènes responsables de l’initiation du développement des yeux ont été conservés pendant 500 Ma. Si les gènes sont symboliques, comment cela est-il possible ? Les mots sont des symboles, et ne sont pas conservés. Les mots utilisés pour décrirent un objet donné changent, donc par quelles raisons le gène élicitant le développement de l’œil n’a pas changé ? Cette question est d’autant plus urgente que les gènes de la signalisation acquièrent parfois d’autres significations. Dans l’évolution, il se produit souvent qu’un gène régulateur est dupliqué: l’une des copies conserve sa fonction initiale pendant que l’autre change légèrement jusqu’à acquérir une fonction nouvelle. Je crois que l’extrême conservation de nombreux gènes de la signalisation peut être expliqué de la façon suivante. Les gènes régulateurs sont souvent ordonnés hiérarchiquement: le gène A contrôle les gènes B, C, D … et chacun des gènes B, C et D contrôlent eux-mêmes d’autres gènes. Les changement évolutifs adaptatifs sont probablement graduels, et excluent les changements dans les gènes à l’initation d’une hiérarchie régulatoire. Le gène eyeless, qui détermine où l’œil est censé se développer, est vraisemblablement un tel gène initial, et donc extrêmement conservé. Mais le point que je veux souligner ici qu’il est difficile d’envisager le problème même s’il est exclut de penser aux gènes comme émettant des signaux, et si ces signaux ne sont pas vus comme symboliques.

À ce jour donc, on parle de gènes « signalant » à d’autres gènes, du « programme » de développement du génome, etc… La terminologie informationnelle se répand dans la biologie du développement, comme elle a envahi la biologie moléculaire. Dans la section suivante, j’essaie de justifier cette usage.

La Théorie de l’Évolution et le Concept d’Information en Biologie

Je commencerai par un concept d’information qui a le mérite d’être clair, mais qui excluerait sa possibilité d’usage en biologie. Dretske (1981) argue comme suit. Si une variable A est corrélée à une seconde variable B, alors on peut dire que B porte de l’information sur A; par exemple, si l’occurence de la pluie (A) est corrélée avec un type particulier de nuage (B), alors le type de nuage nous informe s’il va pleuvoir. De telles corrélations dépendent des lois de la physique, et des conditions locales que Dretske appelle des « conditions de canaux ».

Avec cette définition, il n’y a aucune difficulté à dire qu’un gène porte de l’information sur la forme adulte; un individu avec le gène pour l’achondroplasie aura de petits bras et de petites jambes. Mais on peut tout aussi bien dire que l’environnement d’un bébé porte de l’information sur sa croissance; s’il est mal nourri, il sera maigre. Familièrement, c’est évident; l’environnement d’un bébé prédit en effet de son futur. Mais les biologistes distinguent entre deux types de chaînes causales, génétique et environnementales, ou « nature » et « croissance », pour plusieurs raisons. Les différences de nature sont probablement héréditaires, alors que les différences de développement ne le sont pas; les changement évolutifs sont des changements de nature, les traits qui adaptent un organisme à son environnement sont vraisemblablement dus à la nature. Pour ces raisons, la distinction nature-nurture est devenue fondamentale en biologie. Bien sûr, la distinction se passe du concept d’information, ou de son application spécifique aux causes génétiques. Cependant, comme les exemples précédents le démontrent, le langage informationnel a été utilisé pour caractériser les causes génétiques par opposition aux causes environnementales. Je veux ici justifier cet usage.

J’argue ici que la distinction ne peut être justifiée que si le concept d’information en biologie est utilisé pour des causes qui ont l’attribut d’intentionnalité (Dennet, 1987). En biologie, l’expression que A porte de l’information sur B implique que A ait la forme qu’il a parce qu’il porte cette information. Une molécule d’ADN a une séquence particulière parce qu’elle détermine une protéine particulière, mais un nuage n’est pas noir parce qu’il prédit la pluie. Cet élément d’intentionnalité vient de la sélection naturelle.

Je commencerai par une analogie de l’ingénierie. Un ingénieur qui s’intéresse aux algorithmes génétiques veut concevoir le programme d’un jeu compétitif. Par simplicité, il choisit Renards et Oies, un jeu qui se joue sur un plateau de jeu de dames, dans lequel quatre oies doivent acculer un renard. (En l’occurence, je me suis amusé à l’évolution d’un programme qui joue à ce jeu dans les années 1940 déjà. Sans ordinateur, je n’ai pas pu traiter de jeux plus difficiles, mais Renards et Oies est apparu comme relativement facilement à résoudre.) Il invente donc un certain nombre de règles pour les oies, (rester en lignes, ne pas laisser de trous, rester en face du renard). Chaque règle a au moins un paramètre (par exemple pour la position des trous, déterminer la position de chacun des trous). Il s’arrange ensuite pour qu’une séquence de bit spécifie chacun de ces paramètres, et la pondération à accorder à chacune des règles dans le choix du déplacement suivant. Il conduit ensuite un exemple typique d’expérience d’algorithme génétique, en commençant par une population de séquences aléatoires, en permettant à chacune de jouer contre un renard efficace, en sélectionnant la plus utile, et en générant une nouvelle population de séquence avec mutations aléatoires. Pour un jeu aussi simple que Renards et Oies, il terminera avec un programme capable de battre n’importe quelle stratégie du renard; les choses se compliquent pour les échecs.

Si au lieu d’utiliser une approche d’algorithme génétique, l’ingénieur avait simplement écrit un programme approprié, je pense que personne n’objecterait que ledit programme porte de l’information, du moins des instructions, qui donnent corps à ses intentions. Par analogie, je veux dire que dans la première approche, il y a de l’information dans la séquence de bit, qui a été programmée par la sélection plutôt que par l’ingénieur. Cet usage est justifié par le fait que, en présence d’une séquence de bit et des déplacements qu’elle génère, il serait impossible de déterminer si elle a été générée par l’ingénieur directement, ou par la sélection entre différents algorithmes génétiques.

L’évolution biologique procède d’abord par une étape de codage. Ensuite la sélection basée sur le succès dans le jeu est remplacée par la survie et la reproduction (la fitness) dans un environnement spécifique.

Je pense que cette analogie autorise les biologistes à dire que l’ADN contient de l’information qui a été programmée par la sélection naturelle; que cette information code la séquence d’acide aminé de protéines; que, dans un sens souvent moins compris, l’ADN et les protéines portent des instructions, ou un programme, pour le développement de l’organisme; que la sélection naturelle des organismes altère l’information dans le génome; et que, enfin, l’information génomique est « signifiante » en ce qu’elle engendre un organisme capable de survivre dans l’environnement dans lequel la sélection opère.

La faiblesse de ces modèles, algorithmique ou biologique, est qu’ils n’indiquent pas d’où les « règles » proviennent en premier lieu. Dans le cas algorithmique, le succès de la procédure dépend de l’ingéniosité avec laquelle les règles ont été choisies. Dans le cas biologique, les règles dépendent de lois de la physique et de la chimie; les organismes n’ont pas à inventer ou à faire évoluer2 les règles qui indiquent à une séquence d’acides aminés la façon de se replier. Mais il y a des règles de degrés supérieurs, qui dépendent de ce que les cellules se divisent de façon répétée; que toutes les cellules contiennent un génome entier; que les cellules peuvent émettre des signaux aux cellules voisines; que les gènes peuvent être activés ou réprimés par d’autres; que l’état d’activation ou de répression des gènes peut être transmis par la division cellulaire aux cellules filles. La recherche en biologie du développement s’occupe d’identifier les gènes régulateurs et les règles de degré supérieur, dont les paramètres sont contrôlés par lesdits gènes.

Les raisons pour lesquelles les biologistes tiennent à distinguer les causes environnementales des causes génétiques du développement doivent maintenant apparaître clairement. L’environnement constitue les « conditions de canaux ». Les lois de la physique ne changent pas, mais l’environnement local peux varier. Les fluctuations de l’environnement sont une source de bruit dans le système, pas d’information. Parfois, les organismes s’adaptent en effet à leur environnement au cours de leur durée de vie, sans évolution génétique. Par exemple, les pigments se développent dans la peau des humains exposés à la lumière solaire, par protection contre les UV. Une telle réponse adaptative nécessite que le génome ait évolué par la sélection naturelle de façon à pouvoir faire face à un tel environnement fluctuant. Ce qui est héréditaire n’est donc pas le pigment brun en lui même, mais le mécanisme génétique qui cause son apparition en réponse au soleil.

Ceci était donc plus une histoire naturelle du concept d’information en biologie qu’une analyse philosophique. Le concept a joué un rôle central dans l’essor de la génétique moléculaire. L’image du développement qui émerge peu à peu est celle d’une hiérarchie complexe de gènes régulateurs et de systèmes de signalisation par essence symboliques. Un tel système dépend de l’information génétique, mais la façon dont l’information est responsable de la forme biologique est tellement différente de la façon dont un programme informatique fonctionne que l’analogie entre eux ne s’est pas, je pense, rendue particulièrement utile, quoiqu’elle soit plus proche de la vérité que l’idée selon laquelle les systèmes dynamiques complexes engendrent la forme biologique « d’eux-mêmes ». Une idée moins courante et pourtant centrale à la fois en biologie moléculaire et en développement est la notion de Monod de « gratuité », dont je pense qu’elle est la plus clairement exprimée en disant que les signaux moléculaires en biologie sont symboliques.

Conclusions

Dans le langage courant, le mot « information » est utilisé dans deux contextes différents. Il peut être utilisé sans implications sémantiques; par exemple lorsqu’on dit qu’un nuage fournit de l’information sur le fait qu’il pleuve bientôt ou non. Dans de tels cas, personne ne serait enclin à dire que le nuage a la forme qu’il a parce qu’il fournit de l’information. Par contre, un bulletin météorologique contient de l’information sur le fait qu’il pleuve ou non, et est structuré d’une telle sorte parce qu’il contient de l’information. La différence peut être exprimée en disant que le bulletin contient de l’intentionnalité (Dennett, 1987), quand le nuage n’en contient pas. La notion d’information telle qu’utilisée en biologie est de cette nature; elle implique de l’intentionnalité. C’est la raison pour laquelle on parle de gènes comme porteurs d’information durant le développement, et de fluctuations environnementales comme n’en contenant pas.

Un gène contient donc de l’information, mais qu’en est-il d’une protéine codée par ce gène ? Je pense qu’il faut distinguer entre deux cas. Une protéine peut avoir une fonction directement déterminée par sa structure — elle peut être enzymatique, ou fibre contractile. D’un autre côté, elle peut avoir une fonction régulatrice, d’activation ou de répression de gènes. De telles fonctions régulatrices sont arbitraires, ou symboliques. Elles dépendent de récepteur spécifiques sur la séquence d’ADN, qui elles-même ont évolué par sélection naturelle. L’activité d’une enzyme dépend des lois de la chimie et de l’environnement chimique (par exemple de la présence d’un substrat adapté), mais il n’y a pas de structure qui peut être vue comme le « récepteur » du « message » d’une enzyme. Par contre, l’effet d’une protéine régulatrice dépend bien d’un récepteur évolué de l’information qu’il porte: le gène eyeless indique « fabrique-un-œil-ici », mais seulement parce que les gènes impliqués dans la génèse de l’œil ont une séquence réceptrice appropriée. De la même façon, l’effet d’un gène dépend de la machinerie de traduction — ribosomes, ARNt, enzymes d’assignation. Par toutes ces raisons, je veux dire que les gènes et les protéines régulatrices portent de l’information, contrairement aux enzymes.

Une conclusion similaire sur le concept d’information a été proposée par Sterelny et Griffiths (1999). En particulier, ils écrivent : « L’information intentionnelle semble le meilleur candidat pour le sens dans lequel les gènes et eux seuls portent de l’information développementale. » Justifiant cette proposition, ils ajoutent : « Un test distinctif d’information intentionnelle ou sémantique est lorsque parler d’erreur ou de mauvaise représentation a un sens. » En biologie, l’erreur de représentation est possible parce qu’il y a à la fois une structure évoluée portant l’information, et une structure évoluée qui la reçoit.

En communication humaine, la forme d’un message dépend d’un agent humain intelligent; les bulletins sont écrits par des humains (ou des ordinateurs programmés par des humains), et sont conçus pour changer le comportement des personnes qui les lisent. Il y a donc d’intelligents émetteurs et récepteurs. De quelle manière peut-on alors parler d’un génome comme ayant de l’intentionnalité ? J’ai argué du fait que le génome est tel qu’il est à cause de millions d’années de sélection, favorisant les génomes qui causent le développement d’organismes capables de survivre dans un environnement donné. Il en résulte que le génome a la séquence qu’il a parce qu’elle génère un organisme adapté. C’est dans ce sens que les génomes ont de l’intentionnalité. Le dessein intelligent et la sélection naturelle produisent des résultats similaires. Un argument pour cette vision est que les programmes conçus par des humains pour produire un résultat sont similaires à, et parfois impossible à distinguer de, programmes générés par une sélection sans âme.

Notes de bas de page

1 It is a recipe, not a blueprint.

2 Il est intéressant qu’en anglais le verbe evolve peut être employé à la voix active, comme s’il était possible pour une entité ou un processus de faire évoluer un trait. Il est difficile à traduire puisque l’évolution est uniquement passive en français, un processus ou une entité évolue par un processus immanent ou qui lui est extérieur mais il n’évolue pas, au sens de faire évoluer, un caractère ou un trait. On pourrait faire le même constat pour le verbe to signal, qui peut être employé à la voix active en anglais mais plus difficilement en français.