Mes intérêts de recherche sont à l'intersection de la biologie, de l'enseignement, et des technologies éducatives
L’intégration des technologies dans l’enseignement, l’apprentissage et la formation est très difficile à définir. Si pour certains l’intégration des TIC est de l'usage en classe d'ordinateurs ou d'autres technologies, pour d'autres il s'agit de didactique ou de pédagogies qui construisent des dispositifs d’enseignement-apprentissage où les outils technologiques nouveaux permettent de mieux enseigner ou apprendre. D'autres emploient une définition plus large et y voient une possibilité de développer outils cognitifs et de construire le savoir autrement p.ex. (Papert, 1971; Perkins, 1995; M. Scardamalia, 2001; D. Schneider, Synteta, & C., 2002; Turkle, 1984). De manière plus large encore on peut y voir un processus triple : le développement de compétences individuelles, une dynamique institutionnelle, une métamorphose de la gestion des connaissances: "Information Literacy, Information Policy, and Knowledge Management"(Lloyd, 2005) On arrive a une définition qui se base plutôt sur les effets des TIC que sur les outils.
Cependant toutes ces approches s’intéressent aux moyens de mieux enseigner une discipline de référence qui n’aurait pas changé. Ce n'est pas l'objet principal de ma recherche, même si les choix didactiques et pédagogiques liés à la BIST sont naturellement souvent fondés sur des outils TIC, et les problématiques de leur intégration ne peuvent être écartées.
En effet, on a vu que la discipline de référence biologie a profondément changé et la question de l’enseignement de cette BIST (par des moyens qui, naturellement seront souvent enrichis par les TIC) est posée. C'est là l'objet de cette recherche : l'enseignement de cette BIST, les compétences nouvelles qu'elle implique, les interactions entre les technologies et l'apprentissage ou l'enseignement de cette forme nouvelle de biologie.
Dans son acceptation la plus large Bioinformatique se réfère au traitement informatique de toute information biologique(Claverie & Notredame, 2003).
Roughly, bioinformatics describes any use of computers to handle biological information. […]What almost all bioinformatics has in common is the processing of large amounts of biologically-derived information, whether DNA sequences or breast X-rays.(Wiki, 2006)
Avec le temps il est apparu que le terme de bioinformatique était limitant : dans son usage courant il se réfère en général aux séquences génomiques, protéomiques voire aux autres 'omics.
"Classical" bioinformatics :
Most biologists talk about "doing bioinformatics" when they use computers to store, retrieve, analyze or predict the composition or the structure of biomolecules. As computers become more powerful you could probably add simulate to this list of bioinformatics verbs. "Biomolecules" include your genetic material---nucleic acids---and the products of your genes: proteins. These are the concerns of "classical" bioinformatics, dealing primarily with sequence analysis. (Wiki, 2006)
Il est apparu qu'il fallait un terme plus large et si l'anglais permet le terme de IT-rich Biology, sa traduction en français est difficile. Le terme de Biologie in silico est aussi employé en référence à la distinction in vivo et in vitro qui a divisé la biologie il y a une quarantaine d'années, mais il semble employé en référence aux traitements de données principalement. Aussi il a fallu forger un terme nouveau : BIST Biologie Supportée par les Technologies. Une interprétation parallèle du même acronyme Biologie InStrumentée par les Technologies reste encore possible et l'évolution de cette recherche permettra de trancher.
Nous définissions la BIST comme toute l'activité d'un biologiste qui est supportée par les technologies de l'information : par cette définition nous rassemblons 4 facettes assez différentes qui ont en commun d'être des lieux de changement -dans divers domaines de la biologie supportés par les technologies de l'information.
Alors que le génome humain est séquencé complètement, librement accessible à chacun, que les bases de données de séquences du NCBI, de TrEMBL ou de SwissProt -pour ne citer que celles-là- contiennent de nombreux autres génomes complets et sont enrichies quotidiennement de millions de bases, les outils permettant d'accéder à ces informations, de les traiter et d'y construire de nouvelles connaissances prennent une importance croissante. De très nombreux outils permettant entre autres des recherches d'identités, de similitudes ou de motifs, sont disponibles librement par un simple accès web. Ces bases sont de plus en plus reliées entre elles facilitant l'accès aux différentes dimensions de l'informations sur un même objet.
On parle généralement de Bioinformatique pour ces outils, qui seront développés plus loin.
" With the advent of genomics and its allied fields of proteomics and bioinformatics, integrating information across many subdisciplines of biology is becoming increasingly important for research and teaching. " (Campbell, 2003, van 't Veer, 2002)
Avec leur interconnexion et le développement d'outils et de stratégies permettant des recherches et des publications à partir de la mise en relation de ces informations, de nouvelles bases sont créées à partir de données nouvelles ou par la compilation de plus en plus complexe de données. D'innombrables termes dérivés ont été crées ou proposés après la génomique et la protéomique, tels que la métabolomique , ou la chronomique (Denis Duboule, 2003) Amos Bairoch en a identifé toute une litanie : biomique, cellomique, crystallomique, diagnomique, epigénomique, glycomique, immunomique, interactomique, métabonomique, opéromique, pathogénomique, phénomique, physiomique, protéomatique, régulomique, génomique structurelle et la toxicomique (A. Bairoch, 2006)
De nombreuses base de données regroupent les relevés zoologiques et botaniques et permettent la recherche par leur compilation et le traitement statistique ou digital de ces données : On peut citer Global Biodiversity Information Facility (GBIF) qui a pour but d’ "Offrir un libre accès aux données scientifiques primaires concernant la biodiversité " et regroupe les informations taxonomiques la localisation des relevés associés aux publications primaires. (Lane & Edwards, 2007)
Un exemple de traitement de ces données qui est permis par l'ampleur des données gérables, les possibilités de traitement et la diffusion des synthèses et nouvelles données produites est la base SOPHY (Ruffray, Brisse, & Grandjouan, 2006) qui produit une vision phytosociologique de toutes les plantes de France à partir des relevés botaniques. Ce traitement révèle les associations (phytotypes) leur répartition à travers le pays et les plantes les plus représentatives de ces phytotypes. Ces données synthétiques sont librement disponibles pour tout une chacun a partir d'un simple accès Web, notamment dans les écoles.
Une facette émergent de la biologie qui est particulièrement lié aux technologies de l'information est quantitatif et modélisable avec des outils mathématiques et théoriques issus de l'informatique et des sciences de l'ingénieur ; si ses contours sont encore mal définis et son acceptation controversée elle aborde l'étude de systèmes entiers, on l'appelle souvent Systems Biology.
"… sophisticated mathematical concepts[that] have illuminated and continue to illuminate the principles underlying biology at a genetic, molecular, cellular and even organismal level. The problem was what to call it.
[…]There is considerable interest in this sort of biology at the moment, with well-funded centres springing up at a number of prestigious universities. Most commonly it is referred to as 'systems biology' […] 'Mathematical Biology' or 'Quantitative Biology' didn't fit the bill, […] 'Computational Biology' it has become." (Surridge, 2002)
All really big discoveries are the result of thought, in biology as in any other discipline. Allostery, genes, DNA structure, chemi-osmosis, immunological memory, ion channels were all once just a twinkle in someone's eye[…]Computer models of action potentials, synaptic integration, heart contraction and even the movements of ions and molecules in cells are now so accurate that they can often be used as experimental objects in lieu of the thing they represent. Biologists can now design and test small genetic circuits in theory and then make them in actual living cells. It seems inescapable that, at least at the level of molecules and cells, biology is moving from an era of data-collection to one of hypothesis-driven research. Progress in this new field will be driven by informed and increasingly quantitative theories whatever name we choose to give it.(Bray, 2001)
L’étude de voies de signalisation cellulaires avec des simulations aux propriétés prédictives et vérifiables, ou même une forme d’ingénierie sur commande d'organismes aux propriétés nouvelles devient possible. On a pu par exemple produire des capteurs de lumière d’une finesse inégalée basés sur des bactéries transformées (Bray, 2006; Papin, Hunter, Palsson, & Subramaniam, 2005; Simpson, 2006). C'est un domaine en plein développement, en effet un centre de recherche doté de 200 millions de francs vient d'être ouvert : SystemsX.ch est une initiative des universités de Zurich, Bâle et des Ecoles Polytechniques de Zurich et Lausanne. Cette facette de la BIST rassemble la biologie des systèmes et toutes les simulations numériques, ainsi que les approches ingénierie des systèmes vivants.
Alors que l'UNESCO souligne que nous assistons à une transformation vers une société de la connaissance (Bindé, 2005) la capacité du citoyen à gérer une information qui se caractérise par son abondance et à construire des connaissances structurées à partir d e cette avalanche est en biologie autant -sinon plus qu'ailleurs- critique. On parle souvent d'infobésité (information overload) comme d'une des difficultés de notre temps. La biologie n'échappe pas à cette tendance et la capacité à gérer l'information est critique pour le biologiste et tout particulièrement dans le contexte de l'enseignemement. On nomme ces compétences Information literacy en anglais : Information literacy is the ability to locate, use, and evaluate information (Young & Harmony, 1999). De manière plus complète le rapport ETL(Hounsell & McCune, 2002b) les compétences de gestion de l’information nécessaires à un biologiste sont :
· Etre capable de trouver de l'information sur les biosciences depuis diverses sources et de l'évaluer. D'en communiquer les principes oralement et par écrit, d'une manière structurée, pertinente, et en référence aux hypothèses dans lesquelles elle s'inscrit.
· Savoir appliquer des compétences numériques avancées aux données biologiques (Notamment l'analyse statistique)
· Disposer de stratégies bien développées pour mettre à jour, et développer leurs connaissances
Il ne s'agit pas simplement d'un changement des canaux d'accès aux informations ou d'un surcroît de données, mais d'un renversement de la manière dont l'apprenant se forme (Paquette, 2002) parle de renversement de paradigme : au lieu de recevoir une information qui est sélectionnée, prescrite, préparée, dans des institutions clairement reconnues et lors d'études clairement délimitées, l'apprenant est inondé d'informations hétérogènes de sources informelles et acquiert des connaissance tout au long de son parcours.
On demande ainsi à chaque individu de choisir des informations de sources diverses et de les intégrer en un ensemble cohérent et utile pour son travail ou sa vie en société. En fait, on lui demande d'acquérir avec un minimum d'aide, des habiletés et des connaissances de plus haut niveau que celles qu'il développait, par le passé, qui lui permettaient de choisir les bonnes informations, puis de les transformer, de les utiliser et de les communiquer.
Se rend-on compte des exigences que cela pose? Non seulement la quantité des informations et des connaissances disponibles croît-elle très rapidement, mais elle exige, pour isoler des autres les connaissances fiables et utiles, l'usage de connaissances et d'habiletés auxquelles les méthodes de formation traditionnelles nous ont peu préparés par le passé. (ibidem p. 13-14)
Il définit l'information comme les données extérieurs à la personne et les connaissances comme les construction mentales qui résultent des informations lui sont communiquées. De nouvelles compétences sont désormais nécessaires pour permettre à chacun tout au cours de sa vie de construire des connaissances à partir de ce vaste flux d'informations.
La problématique de la construction de connaissance à partir des données est aussi un enjeu de la recherche et sans doute particulièrement en biologie. En effet, si la somme d'information augmente vertigineusement, la connaissance n'augmente pas de la même façon : les expériences produisent tellement de données -parce que cela permet des publications-, qu'on n'a plus assez de temps pour gérer ces données, et les banques de données accumulent des masses exponentiellement croissantes de séquences ou d'autres données biologiques qu'on de la peine à exploiter pleinement ou même à financer parce que cela ne permet guère de publier- et cet état de fait inquiète certains. Notamment ceux qui gèrent ces bases de données : (Amos Bairoch, 2006) directeur de SwissProt disait récemment qu'on n'a pas besoin de plus d'expériences, on a besoin de plus de temps pour chercher dans les données. Ce qu'il faut développer c'est le data mining : le traitement des données pour y trouver les perles dans la masse.
Si l’on considère que toute l’information permettant le fonctionnement et la reproduction d’un être vivant est inscrite dans l’ADN, dès le moment où on a séquencé cet ADN il devient possible d’étudier les fonctions d’un organisme à partir de ces séquences : si le gène est l’information qui décrit un polypeptide (une protéine) l’ensemble des gènes, et des autres séquences (régulatrices, interférentes, etc) et leurs interactions devrait décrire les fonctionnements de l’organisme, avec ses interactions.
Il devient dès lors possible d’expérimenter par des méthodes bioinformatiques : Sur la base de similitudes ou de séquences particulières, on peut inférer la forme ou certaines propriétés chimiques des protéines correspondantes et finalement leur fonction. On peut aussi comparer une séquence étudiée à d’autres dans la même espèce ou d’autres -sans même tenter de comprendre sa structure et tenter d’inférer des propriétés de cette séquence (plus exactement de la protéine qui est le produit de cette séquence [1]) telles que des fonctions ou des liens évolutifs. Ce raccourci de langage est révélateur d’un glissement de point de vue… de l’étude des protéines (le phénotype en somme) vers celle de leur source informationnelle : le gène (le génotype). On remonte à la source de l’information. Naturellement on travaille sur des données qui ont été produites par la biologie in vivo et in vitro.
Par exemple on peut rechercher la fonction d’un gène inconnu qu’on a séquencé en sondant les bases de données génomiques pour des séquences similaires chez d’autres animaux proches afin d’établir des hypothèses qu’on ira vérifier par biologie moléculaire. Par exemple (Rodriguez, Greer, Mok, & Mombaerts, 2000) ont pu trouver des gènes homologues chez l’homme (V1R et V2R) de ceux des récepteurs qui chez la souris détectent les Phéromones. On a pu ensuite étudier les neurones qui exprimeraient ces gènes et tester qu’ils réagissent effectivement à différents substances olfactives.(Rodriguez, 2003) On voit bien dans cet exemple que les techniques BIST ne remplacent pas les approches classiques mais complètent l’arsenal des techniques disponibles pour la recherche.
Les masses de données que la biologie actuelle génèrent d’immenses masses de données qu’on ne peut traiter facilement : il est devenu indispensable d'avoir et de savoir exploiter des techniques de traitement des données avancées.
Exemple : Les puces à ADN permettent de mesurer le taux d’expression (en ARNm) de très nombreux gènes en même temps. On dispose de puces qui mesurent l’expression de 50'000 gènes soit tout le génome humain ou de souris, avec même une marge de redondance. On peut ainsi mesurer le profil de TOUS les gènes exprimés à un moment donné dans un tissu donné. La comparaison de plusieurs profils permet de déterminer l’évolution des gènes produits ou de chercher les différences et corrélations entre des échantillons différents. Par exemple la comparaison des profils d’expression de nombreuses tumeurs (cancer du sein) dont on savait a posteriori si elles avaient produit des métastases ou non, a permis de déterminer une centaine de gènes qui ont un degré d’expression différent dans les tumeurs qui ont développé des métastases. On peut ainsi créer un test qui permet de prédire s’il faut traiter par chimiothérapie (on parle de mauvais pronostic) ou non. Et éviter ainsi de traiter inutilement 70-80% des femmes qui n’allaient pas développer de métastases (bon pronostic) (van 't Veer et al., 2002). Les méthodes de traitement complexe des données sont ici la clé de l’identification des gènes qu’il faut surveiller pour pronostiquer.
Au-delà de cet exemple encore assez classique, on assiste aussi à une remise en question de la logique hypothético-déductive : sans avoir formulé très clairement des hypothèses on amasse des données puis on y pêche par des traitements assez génériques (data mining) des particularités remarquables qui pourront être l’objet de découvertes. (on parle de recherche hypothesis driven ou Data driven) " It is considered in some quarters that hypothesis-driven methods are the only valuable, reliable or significant means of scientific advance. Data-driven or "inductive" advances in scientific knowledge are then seen as marginal, irrelevant, insecure or wrong-headed, […]. Many fields are data-rich but hypothesis-poor. Here, computational methods of data analysis, which may be automated, provide the means of generating novel hypotheses, especially in the post-genomic era. " (Kell & Oliver, 2004)
On parle de métagénomique de séquençage de masse ou d'ADN écologique.
Craig Venter qui est souvent cité comme pionnier de cette approche globale il a séquencé 6.3 milliards de bases à partir d'échantillons au fond de la mer des Sargasses et y a trouvé des millions de nouveaux gènes, 1700 nouvelles familles de protéines et estimé qu'il y avait là 1800 nouvelles espèces.(Venter et al., 2004) Des chercheurs de Diversa, Corp. ont analysé des échantillons de sol : on sait combien il est riche en réactions qui pourraient être utile, purification, détoxification, fixation de l'azote etc. mais c'est un monde peu connu, d'autant plus que 99% des bactéries du sol ne peuvent être cultivées au labo. Or dans un seul échantillon de sol du désert (Gray KA, 2003) ont identifié plus de 100 nouvelles enzymes (des estérases) : jusqu'alors ils n'en connaissaient que 200 !
De manière classique on construit les connaissances en biologie- par l'observation, par expérimentation et le traitement des données issues de ces observations et expériences. En tant que science expérimentale, les données sont au centre et la construction de connaissance doit s'élaborer de manière cruciale sur les données. une expérience est abordée comme une manière de valider ou non un modèle. La formulation des résultats le montre bien : la littérature est pleine de formules du type "These results are compatible with current models " "Our data do not fit model x but are compatible with model y" On voit que les modèles sont secondaires aux données ce qui met bien l'accent sur les données comme l'œuvre fondamentale du biologiste. Dans cette vision qu'on pourrait peut-être considérer comme idéalisée(Vinck, 1995) - c'est à partir des données d'observation ou d'expérimentation qu'on construit des modèles. Avec la BIST on voit se développer dans la démarche d'un biologiste la part du traitement des données. "How biologists design, perform, and analyze experiments is changing swiftly. Biological concepts and models are becoming more quantitative, and biological research has become critically dependent on concepts and methods drawn from other scientific disciplines."(NRC Committee on Undergraduate Biology Education to Prepare Research Scientists for the 21st Century, 2003)
Par exemple en Phytosociologie on a passé d'une approche avec les indices écologiques de Landolt (Landolt, 1977) qui sont basés sur la capacité de synthèse exceptionnelle d’un botaniste à une analyse statistique des relevés botaniques exhaustifs du territoire divisé en quadrats (H. Brisse, De Ruffray, Grandjouan, & Hoff, 1996) avec la base de données SOPHY (H. Brisse, Grandjouan, Hoff, Ruffray, & Garbolino, 1989)qui produit des Phytotypes. associant les espèces les plus fréquemment trouvées ensemble, ou celles qui en sont les plus typiques : les plantes discriminantes de ce phytotype. La valeur de cette base repose sur un traitement statistique pertinent et complexe de données assez simples. le traitement des données est donc ici au premier plan.
Avec la BIST des chercheurs construisent de plus en plus des connaissances par le traitement de plus en plus sophistiqué des données (notamment de séquences nucléiques). " La recherche biologique in silico vient s'ajouter aux méthodes in vivo et in vitro traditionnellement utilisées dans les sciences de la vie. Cette manière d'explorer le vivant constitue un mode de production des connaissances qui relève sous certains aspects de l'histoire naturelle et se distingue de l'approche expérimentale, analytique et réductionniste, qui semble dominer les sciences de la vie au XXe siècle."(Strasser, 2006) En traitant des données qu'ils n'ont pas produites, en construisant leur conclusions sur des démarches et des procédures principalement informatiques et statistiques ils s'écartent des pratiques reconnues et leur activité n'est pas facilement comprise, et certains ne leur accordent pas facilement le statut de biologistes
On trouve de plus en plus d’articles qui publient dans toutes les revues et particulièrement les plus prestigieuses- des données établies par des techniques BIST au moins partiellement et souvent principalement.
Dans la quête des différences entre l’homme et son plus proche cousin, le chimpanzé on a cherché les gènes qui nous différencieraient, on n’en a trouvé que très peu, et récemment on a exploré les zones de l’ensemble du génome qui ont changé particulièrement vite entre le chimpanzé et nous. Ils ont trouvé une séquence d'ARN (HARF1) qui s’exprime spécifiquement lors du développement embryonnaire du néocortex entre la 7ème et la 19ème semaine. Cette recherche fait appel uniquement à des méthodes BIST de comparaison de séquences et a été publiée dans la prestigieuse revue Nature (Pollard et al., 2006) et a été mentionnée dans la presse généraliste.(Morange, 2003)
[1] Notez qu’en écrivant propriétés de la séquence on se réfère en fait à celles de la protéine qui est le produit de cette séquence.
Retour à la Home page de F. Lombard