El Projecte ENCODE: Una enciclopèdia integrada dels elements del genoma humà

Genètica molecular: De tot el genoma humà, únicament una petita part correspon a gens. I d’aquests gens, només una part minoritària conté la informació que es plasmarà directament en les proteïnes. De gens, naturalment, no n’hi ha únicament els que tenen una proteïna com a producte, sinó que també n’hi ha molts que tenen com a producte final un àcid ribonucleic (ARN). Però tot i així, i comptant tota la plèade de molècules d’ARN que podem trobar en els nuclis cel•lulars, és cert que tan sols una part minoritària del genoma humà s’expressa en productes gènics. I la resta? Què fa la resta? És un mer suport anatòmic? És ADN brossa? O ADN fems? La paraula “junk” que apareix en l’expressió “junk DNA” la podem traduir per brossa o per fems. Val a dir que aquesta expressió fa temps que s’utilitza exclusivament en un sentit metafòric. L’ADN intergènic (com hom s’estima més d’anomenar l’ADN brossa) compleix diverses funcions reguladores. Això no obsta, naturalment, perquè hi hagi seqüències de funcionalitat dubtosa, o seqüències de caràcter parasític (pensem en els provirus i transposons). És clar que dir que l’ADN intergènic és regulador i prou, és insuficient. Cal conèixer i anotar aquestes funcions reguladores i lligar-les entre elles. El genoma, el proteoma, el metabol•loma, funcionen al capdavall com un sistema integrat i horitzontal, amb nodes potser sí, però no pas amb centres jeràrquics. El Consorci del Projecte ENCODE treballa per generar una “Enciclopèdia d’Elements d’ADN”, és a dir un llistat de tots els elements funcionals del genoma humà, siguin gens (que actuen a través dels seus productes d’ARN i/o proteïna) o seqüències reguladores. Avui s’ha publicat en línia un article que resum la feina feta. Ara per ara, s’han trobat funcions per a un 80% del genoma. Queda feina per fer, naturalment, car el 20% restant també pot tindre funcions, i també poden haver-hi funcions addicionals per a les seqüències descrites.

El genoma humà

El genoma humà, estrictament, és integrat per 46 cromosomes (44 autosòmics, i 2 sexuals, XX en el sexe homogamètic o femení i XY en el sexe heterogamètic o masculí; encara que aquests nombres poden ser diferents en casos d’alteracions cromosòmiques). Habitualment, s’inclou també com a part del genoma humà, el genoma mitocondrial, present en aquests orgànuls cel•lulars i que té una herència citoplasmàtica o materna. És clar que, ben mirat, també podríem incloure com a part del “genoma humà”, tots els genomes de les espècies comensals de l’ésser humà, és a dir els que integren la microbiota o flora microbiana. Serem estrictes, però, i comptaren únicament el genoma dels 46 cromosomes. La reproducció d’aquest genoma és sexual creuada. Cada individu genera cèl•lules sexuals o gàmetes, i en aquests gàmetes, la dotació cromosòmica es redueix a la meitat (23 cromosomes, 22 autosomes i 1 cromosoma sexual). Els gàmetes del sexe homogamètic, els òvuls, sempre portaran el cromosoma sexual X, i els gàmetes del sexe heterogamètic, els espermatozous, poden portar bé el cromosoma sexual X o el cromosoma sexual Y. Hom diu que els gàmetes tenen una dotació cromosoma haploide o senzilla. En fusionar-se els dos gàmetes de sexe complementari, sorgeix un nou individu, les cèl•lules del qual tindran una dotació cromosòmica diploide o doble.

El genoma humà haploide, doncs, consisteix en 23 molècules d’àcid desoxirribonucleic (ADN). L’ADN és un polímer lineal de doble cadena. Els monòmers de l’ADN són els nucleòtids. Existeixen 4 tipus de nucleòtids, que es poden abreviar amb les lletres A, G, C, T. Les dues cadenes de l’ADN són complementàries, en el sentit que els nucleòtids A formen ponts d’hidrogen amb els T, i els G amb els C. Així doncs, informativament, la seqüència d’una cadena determina l’altra. Dit d’una altra manera, des d’un punt de mira d’informació, cada cromosoma pot ésser descrit com una seqüència lineal de nucleòtids.

Si sumem tots els nucleòtids del genoma humà haploide ens surt una xifra que volta els 3.200 milions. Com que cadascuna d’aquestes posicions pot ésser ocupada per 1 de les 4 “lletres” citades, tenim que el contingut informatiu equival a 800 Mbytes.

El nombre total de gens, és a dir de seqüències que contenen informació que s’expressa en un producte gènic (generat per transcripció) no arriba en cap cas als 30.000. Si ens referim únicament als gens que codifiquen informació per a proteïnes (generades per traducció posterior a la transcripció), algunes estimacions parlen de 23.000. Únicament l’1,5% dels 3.200 milions de nucleòtids del genoma humà haploide es tradueixen en proteïnes.

L’ADN no va nu

Una part de totes aquestes proteïnes intervé en tots els processos de l’ADN: la replicació, la transcripció, la reparació, etc. Alhora participen en el plegament d’aquestes macromolècules dins del nucli cel•lular. El plegament no és una qüestió merament estructural, sinó que es vincula estretament a la funcionalitat.

La funció més evident de l’ADN és contenir la informació necessària per produir les proteïnes. Les proteïnes participen en l’estructura cel•lular i extracel•lular, en la catàlisi de les reaccions metabòliques, en la xarxa de senyalitzacions inter- i intracel•lulars, etc. Així doncs, és lògic que la part de l’ADN de funcionalitat més coneguda sigui la corresponent a les regions que es transcriuen, és a dir les regions de l’ADN a partir de les quals es generen molècules d’àcid ribonucleic (ARN).

La transcripció dels gens és un procés altament regulat. Aquesta funció es catalitzada per una família de proteïnes, les ARN polimerases ADN-dependents. Però aquestes proteïnes únicament actuen si són reclutades per complexos activadors de la transcripció formats per altres proteïnes. En darrera instància aquests complexos depenen de la pròpia seqüència de l’ADN i, més concretament de les regions reconegudes pels factors de transcripció.

El Projecte ENCODE no s’ha centrat únicament en les regions de transcripció i d’associació a factors de transcripció. També ha estudiat les regions de l’ADN que són rellevants en l’estructura de la cromatina. La cromatina és el complex format per l’ADN i les proteïnes que participen en el seu plegament. D’aquestes proteïnes, destaquen les histones. En conseqüència, les regions d’ADN que modifiquen la interacció amb les histones han estat també molt rellevants per al projecte ENCODE.

Assignar funcions bioquímiques a un 80% del genoma

L’estudi sistemàtic de les regions d’ADN que hem esmentat ha servit per assignar funcions bioquímiques a un 80% del genoma humà. Les funcions bàsiques són de caire regulador. És remarcable que molts d’aquests elements reguladors es troben associats físicament (propers en la seqüència d’ADN) a altres reguladors i a gens.

Una eina clau: la genòmica comparada

El genoma humà no es troba aïllat. Ha evolucionat a partir del genoma pre-humà. Tots els genomes dels organismes actuals comparteixen un origen comú. Així doncs, és possible fer ús de la genòmica comparada per detectar la funcionalitat de seqüències d’ADN. El Projecte ENCODE s’ha centrat en una comparativa dels genomes de mamífers coneguts. En una primera part del projecte, comparant un 1% del genoma humà amb les seqüències homòlogues d’altres espècies de mamífer, fou possible observar que una part d’aquestes seqüències era més compartida que no pas s’hauria esperat per atzar. Si l’ADN brossa fos ADN brossa, únicament la deriva gènica actuaria sobre ell. Com que una part és funcional, l’evolució tendeix a ésser conservadora: hi ha unes pressions selectives negatives a canviar una cosa que ja funciona. D’aquesta manera, es detectà que vora un 60% del genoma humà és sotmès a pressions selectives contra el canvi, compartides amb les d’altres mamífers. Donada la variabilitat d’hàbitats de les espècies comparades, cal pensar que si tenen una funció compartida és perquè participen en funcions bioquímiques fonamentals compartides per tots els mamífers.

Però l’avenç del Projecte ENCODE també ens ha ensenyat que hi ha molts elements reguladors del genoma humà que no tenen la mateixa constricció evolutiva en altres espècies de mamífers. Aquests elements reguladors tenen una gran rellevància per a explicar les característiques diferencials de l’espècie humana.

Una altra eina: els marcadors de malaltia

La majoria de la variació puntual o polimorfisme d’un sol nucleòtid (SNP) que trobem entre els individus de les poblacions humanes sembla ésser d’una natura neutra. No obstant, hi ha alguns SNP que s’associen a un risc superior a patir alguna malaltia. El projecte ENCODE assenyala que la majoria d’aquests SNP es troben dins o prop de les regions marcades com a funcionals per part del projecte ENCODE.

De fet, aquesta associació podrà ésser a partir d’aquestes dades més ben coneguda. Les dades del projecte ENCODE contribueixen a entendre quins factors de transcripció i en quins tipus cel•lulars participen en l’associació entre l’SNP i la malaltia.

Les proves experimentals

Bona part de la feina del projecte ENCODE és in silico, és a dir basada en l’anàlisi informàtica de seqüències genètiques ja ben conegudes. Però aquestes anàlisis informàtiques produeixen bàsicament hipòtesis que cal després confirmar en el laboratori. En aquest cas, s’han inclòs experiments realitzats amb cultius corresponents a 147 tipus cel•lulars. Cal no oblidar aquesta diversitat. En el cos humà, hi ha vora 200 tipus cel•lulars diferents. Encara que totes les cèl•lules d’un mateix individu comparteixen el mateix genoma, és evident que no en totes s’expressen ni els mateixos gens ni ho fan en la mateixa força. La clau de la diferenciació cel•lular es troba precisament en les seqüències reguladores.

Per funció bioquímica, el Projecte ENCODE entén la participació directa o indirecta en la generació d’ARN i/o la participació en diferències en l’estat d’agregació de la cromatina (la qual pot oscil•lar en 7 nivells diferents d’agregació). Doncs bé, el 80,4% del genoma humà participa, si més no, en un d’aquests esdeveniments. La xifra no és exhaustiva, ja que el 19,6% restant pot contenir funcions que no són encara conegudes. En tot cas, per fer-nos una idea de la densitat informativa de l’ADN, ENCODE estima que el 99% del genoma es troba a no pas més 1.700 nucleòtids d’una seqüència amb funció bioquímica.

La interacció entre l’ADN i les proteïnes és un factor crucial en la funcionalitat de l’ADN. Mitjançant les tècniques de seqüenciació ChIP i de degradació per DNasa I, és possible detectar els punts de l’ADN que interactuen amb proteïnes. El Projecte ENCODE estima que el 95% del genoma es troba a no pas més de 8.000 nucleòtids del punt d’interacció més proper.

Una munió de dades

El fet que el Projecte ENCODE sigui finançat per l’NHGRI nord-americà posa a la disposició de la comunitat científica aquesta autèntica Enciclopèdia Funcional del Genoma Humà.

Un dels reptes pendents del Projecte ENCODE és ampliar la llista de factors de transcripció estudiats experimentalment. En total, es coneixen uns 1.800 factors de transcripció, i s’han estudiat en el marc d’aquest projecte uns 119. Alhora, el Projecte ENCODE requereix també dels avenços en el coneixement de l’epigenòmica.

Aquesta entrada ha esta publicada en General. Afegeix a les adreces d'interès l'enllaç permanent.

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *

Aquest lloc utilitza Akismet per reduir el correu brossa. Aprendre com la informació del vostre comentari és processada