.zurück zur auswahl        zurück       weiter
 
.  
.
  Postgenomik (Teil III)
.
 

III. Die Suche nach den Genen
 

Die Sequenz des menschlichen Genoms liegt nun also mehr oder weniger vor. Von den drei Milliarden Basenpaaren machen die Gene nur 1.5% aus. Noch bis vor kurzem glaubte man, dass es 3 – 5% seien, aber mit dem Absturz der Zahl der Gene musste auch dieser Anteil entsprechend nach unten korrigiert werden. Wie findet man diese Stecknadeln im Heuhaufen? Es gibt verschiedene Gen-Suchmethoden, die jede ihre eigenen Nachteile hat. Im Folgenden sollen die wichtigsten dieser Methoden verglichen und dabei die Unzulänglichkeiten hervorgehoben werden. 

A) Suche mit Hilfe der rückumgeschriebenen DNA (cDNA)

Eine der Methoden geht von der Aktivität der Gene aus. Wird ein Gen aktiv, so wird als erstes seine DNA in eine RNA umgeschrieben (transkribiert). Die so entstandene Prä-mRNA wird, wie in Teil II beschrieben, durch Spleissen in die ausgereifte Messenger-RNA (mRNA) umgewandelt. Aus der mRNA kann man durch Rückumschreibung eine komplementäre DNA (cDNA) herstellen, deren Sequenz mit Teilen des untersuchten Gens übereinstimmt. Man kann 
nun die cDNA dazu verwenden, nach der Position dieses Gens im Genom 
zu suchen.

 
Erläuterungen:

cDNAs sind künstliche Moleküle, die es in der Natur nicht gibt. Sie entsprechen dem DNA-Gegenstrang in der Doppelhelix, aber ohne die nicht codierenden Introns.
Introns sind die nichtabgelesenen Bereiche innerhalb von Genen, die abgelesenen (exprimierten) Abschnitte heissen Exons. 

 
Um ein bestimmtes Gen herauszufischen, braucht man nicht die ganze cDNA, sondern 
es genügen Teilstücke, die gross genug sind, um im Genom einmalig zu sein. Meist werden hierzu die ersten 200-300 Nucleotide sequenziert. Diese Genschnipsel heissen Tags (Etiketten). Die Tags von aktiven Genen können natürlich auch umgeschrieben werden und heissen dann "exprimierte Sequenz-Tags" (ESTs). 
Sie wurden in den USA zu Tausenden auf einen Schlag zum Patent angemeldet, was 
eine jahrelange heftige Diskussion darüber auslöste, ob eine solche Patentierung gerechtfertigt sei. Da jedes EST einem Gen entspricht, kann man mit ihrer Hilfe – 
ebenso wie mit den cDNAs der vollen Länge – Gene finden.
 
Nachteile dieser Methode sind:
  • Es können nur solche Gene gefunden werden, die in dem untersuchten Gewebe zu dem Zeitpunkt aktiv sind. Bei der Gen-Suche mit ESTs bleiben 1020% der Gene unerkannt (1).
  • Es gibt Pseudogene, deren DNA zwar in eine RNA transkribiert wird, aber ohne dass darauf eine Proteinsynthese folgt oder eine andere biologische Aktivität. Diese Pseudogene werden von der cDNA-Methode miterfasst.

  • B) Suche nach Start- und Stop-Signalen

    Eine andere Methode beruht auf dem Abstand zwischen Start- und Stopcodon. Die Ablesung eines Gens beginnt immer an einem Startcodon und endet an einem Stopcodon. D.h. innerhalb der abgelesenen Strecke dürfen keine Stopcodons vorkommen, sonst würde die Ablesung des Gens an der Stelle abgebrochen werden. Solche Anordnungen aus Start- und Stopsignal mit einer Strecke dazwischen, die frei ist von Stopsignalen, treten natürlich auch rein zufällig in ungeordneten, nicht-codierenden Bereichen auf. Sie sind also kein Beweis für eine Genfunktion. Man kann nun errechnen, wie lang solche signalfreien Strecken rein statistisch im Durchschnitt sind. Dann definiert man eine Länge, die um ein bestimmtes Mass über diesem Wert liegt, und kann dann sagen, die Wahrscheinlichkeit, dass diese Länge rein zufällig erreicht würde, sei so gering, dass man davon ausgehen könne, dass hier ein Gen vorliege. Aber erstens ist das nie ganz sicher und zweitens bleiben dabei alle Gene unerkannt, die kürzer sind als das definierte Mass (2).
     
     

    C) Gensuche durch Test auf Leserahmen

    Eine weitere Gen-Suchmethode beruht darauf, zu prüfen, ob das Spleissprodukt, also die ausgereifte mRNA, einen phasengerechten Leserahmen enthält, d.h. ob es die Voraussetzungen für die Produktion von Proteinen besitzt. Aber auch die Existenz eines Leserahmens bedeutet nicht notwendigerweise die Existenz eines funktionierenden Gens (3). 
     
     

    D) Suche nach Exon-spezifischen Strukturen oder Exon-spezifischen Basenzusammensetzungen

    Andere Suchprogramme machen von Strukturen Gebrauch, die für Exons typisch sind, oder davon, dass in den Genen der Gehalt der Basen G und C grösser ist (2), aber es gibt noch keine Software, mit der alle Exons entdeckt werden können (4).
     
     

    Unschärfen in der Erkennung summieren sich

    Es gibt auch noch keine klaren Unterscheidungsmöglichkeiten zwischen den Introns, also den nicht codierenden Abschnitten innerhalb eines Gens, und den nicht-codierenden Bereichen ausserhalb der Gene. Eine Teillösung hierfür sind so genannte RepeatMasker, das ist eine Software, die Sequenzwiederholungen erkennt und von der Gensuche ausschliesst (2), aber nicht alle Zwischen-Gen-Bereiche emthalten Repeats. 

    Um die Trefferquote einer solchen Methode zu testen, führt man sie mit bereits bekannten Sequenzen durch, z.B. solchen von besonders gut untersuchten Modelltieren, wie dem Fadenwurm Caenorhabditis, der Fruchtfliege Drosophila oder der Maus. 

    Caenorhabditis: Bei der inzwischen vollständig bekannten DNA-Sequenz des Nematoden (Fadenwurms) Caenorhabditis elegans lassen sich die Intron-Exon-Grenzen nur für 92% der Introns genau feststellen. Da jedes Gen bei C. elegans im Durchschnitt aus fünf Exons und vier Introns besteht, ergibt sich pro Gen eine Fehlerrate von knapp 32%. Die Enden der Gene aufgrund der Basensequenz der DNA festzustellen, ist nur in 70% der Fälle möglich. Das senkt die Vorhersage für die mRNA und damit für die Aminosäuresequenz auf 46%.

    Drosophila: Ähnliche Zahlen  ergaben sich bei der Taufliege Drosophila. Auf die Frage, ob ein bestimmtes Nucleotid innerhalb oder ausserhalb eines Exons liegt, erhielt man 5 – 10% Falschmeldungen. Die Fehlerrate stieg, wenn die Grenzen eines Exons angesagt werden sollten, und sie stieg weiter, wenn nach der gesamten Struktur eines Gens gefragt wurde. Die besten Programme lieferten 60-70% Fehler. Das bedeutet, dass die Mehrzahl der mit solchen Programmen durchgeführten Gen-Bestimmungen fehlerhaft ist.  Die Fehler reichen von falschen Exon-Begrenzungen über fehlende Exons zu Phantom-Exons, die gar nicht existieren. 5-15% der Gene wurden überhaupt nicht gefunden.
     

    Mensch: Beim Menschen muss mit einer eher noch höheren Fehlerrate gerechnet werden, weil die Gene mehr Exons enthalten (5) und weil der Anteil der nicht-codierenden Bereiche grösser ist als bei Drosophila (2). Ähnliche Analysen an dem bereits aufgeklärten menschlichen Chromosom 22 zeigten eine Tendenz, zu viele Gene zu finden. Es wurden zwar 94% der Gene entdeckt, aber nur 20% hatten die richtige Exon-Intron –Struktur und 16% der Exons wurden überhaupt nicht gefunden (1).
     
     

    E) Suche nach Genen durch Erkennen alternativer Spleissstellen

    Es gibt  Sensoren für alternative Spleissstellen. Diese Arbeiten sind aber noch nicht weit fortgeschritten. Alternatives Spleissen gilt als eins der grössten Hindernisse für das automatische Auffinden von Genen (2,4). Die Spleissstellen sind - ähnlich wie die Enden der Gene und die Exon-Intron-Grenzen - nicht genau vorhersagbar. Da es vor und nach jedem Exon Spleissstellen geben muss, summieren sich auch diese Unschärfen mit der Zahl der Exons zu erheblichen - zusätzlichen - Ungenauigkeiten. 


     

    F) Homologievergleiche für das Auffinden von Genen

    Eine partielle Hilfe in diesem Dilemma sind Homologievergleiche. Homolog nennt man verwandte Gene mit gemeinsamen Vorfahren und Ähnlichkeiten in der Sequenz. Man kann daher die Sequenz eines Gens dazu verwenden, in Datenbanken nach ähnlichen Sequenzen zu suchen, z.B. indem man von einem gut erforschten Gen der Maus ausgeht und nach einem entsprechenden (und wie man hofft funktionsgleichen) Gen beim Menschen sucht.
     

    Unzulänglichkeiten der Homologiemethode für die Suche nach Genen

    Aber auch hier gibt es Probleme. Nur für etwa die Hälfte aller Gene existieren Homologe (1, 6-8). Ausserdem machen auch hier die schon erwähnten Pseudogene Schwierigkeiten. Man braucht also zusätzlich 
    zur Entdeckung homologer Sequenzen den Beweis, dass diese Sequenzen tatsächlich als Gene fungieren. Ein solcher Beweis wäre, dass sie nach der Transkription zu mRNA gespleisst werden. Damit klammert man aber
    alle Gene aus, die nur aus einem Exon bestehen und folglich kein 
    Intron besitzen, das herausgespleisst werden könnte (2). 
     

    Zu den Genen mit nur einem Exon gehören die Gene für G-Protein-gekoppelte Rezeptoren (GPCRs). GPCRs sind Membranproteine deren Beteiligung an einer ganzen Reihe von Krankheitsgeschehen erst unlängst bekannt wurde. Die unter ihnen 
    häufig auftretenden genetischen Varianten  sind die Ursache  für viele 
    der abweichenden Reaktionen auf Medikamente (9). Wegen der 
    Beteiligung an Krankheitsgeschehen haben sie als Targets (Zielstrukturen) 
    für die Suche nach neuen Medikamenten (s. Teil VII, C) eine herausragend grosse Bedeutung erlangt und sind wegen der zahlreichen 
    genetischen Varianten ein wichtiger Gegenstand der Pharmakogenetik geworden. 

     

    G) Erkennen von Genen aus der Sequenz (ab-initio-Methode)

    Der Wunschtraum aller Computer-Gentechnologen ist es, eines Tages 
    alles aus der DNA ablesen zu können, „ab initio“, also sozusagen vom Ursprung der Bioinformation aus. Allein die Sequenz soll dann, vermittelt 
    durch Algorithmen, anzeigen, 
     

  • wo Gene liegen,
  • welche Aminosäuresequenzen die von ihnen gebildeten Proteine haben,
  • aus der Aminosäuresequenz der Proteine soll auf deren Faltung geschlossen werden und
  • aus der räumlichen Verteilung der funktionellen Gruppen im Protein auf seine Funktion, z.B. darauf,
  • welche Moleküle als Bindungspartner in Frage kommen,
  • und welche der Bindungen zu Nebenwirkungen führen (vgl. Pharmakogenetik Teil II, B).
  • Zur Zeit ist man bei den (hier interessierenden) ersten vier Stufen noch weitestgehend  auf Homologievergleiche angewiesen, mit immer den gleichen zwei Nachteilen: 
    • Die Zahl der verfügbaren Homologen ist begrenzt und
    • wirklich Neuartiges bleibt auf diese Weise unentdeckt.

    •  


    Da mit den Homologie-Methoden Vergleiche mit bereits Bekanntem 
    angestellt werden, greifen sie nicht am Ursprung der biologischen 
    Information an. Die Bezeichnung "ab initio" für diese Art von Ableitungen aus der DNA-Struktur ist demnach nicht berechtigt
    und eigentlich eine Irreführung. Solche Vergleichsanalysen werden auch "knowledge-based" genannt (10). Das klingt chic, bestätigt aber nur, 
    dass sie auf bereits vorhandenem Wissen basieren. 

    Die ab-initio-Methoden erwiesen sich ausserdem bisher als total ungeeignet, solche Gene zu finden, die nicht für Proteine codieren, sondern für Ribonucleinsäuren (RNAs) (1).
     

    H) Was wir noch gar nicht können: Erkennen von Regulationsbereichen

    Jede Genaktivität steht unter der Kontrolle von verschiedenartigen Regulatoren. Sowohl die Umsetzung der DNA in die mRNA (Transkription) also auch die Proteinsynthese nach der Anweisung der mRNA (Translation) werden auf vielfältige Weise reguliert. 

     - Es gibt Sequenzen, die die Aktivität eines Gens oder einer ganzen Abfolge 
        zusammen agierender Gene "einschalten", genannt Operator. 
     - Es gibt Sequenz-Bereiche, die eine Gen-Aktivität hemmen oder nicht, je 
        nachdem, welche Substanzen direkt oder indirekt (z.B. über die Bindung 
        an bestimmte Proteine) mit ihnen reagieren. (Die hemmenden Substanzen 
        werden Inhibitoren genannt und die Proteine, die die Hemmung vermitteln, 
        bezeichnet man als Repressoren.) 
     - Es gibt ausserdem Aktivitätsbeschleuniger (genannt Enhancer) und 
       Aktivitätshemmer (genannt Silencer). Beide können sich weit ab von dem 
       Gen befinden, auf das sie ihre Wirkung ausüben. 
     - Andererseits gibt es auch Regulatoren innerhalb von Genen und zwar. in 
        einigen der nicht abgelesenen Teile, den Introns, meist im ersten oder 
        zweiten Intron. 

    Ohne diese Regulationsbereiche zu kennen und zu lokalisieren, kann man das Stoffwechselgeschehen nicht verstehen und daher auch seine eventuellen Entgleisungen nicht beeinflussen. 

    Zwei Zitate sollen zeigen, dass das Ausmass der derzeitigen Unkenntnisse 
    nicht etwa nur eine negative Sicht der Gentechnikkritiker ist, sondern auch 
    von Wissenschaftlern gesehen wird: 

    David Goldstein vom University College in London schlägt vor, wegen der „Unkenntnisse, z.B. über die Abstände zwischen den Enhancern und den Genen, die sie beeinflussen“, eine Kartierung der Haplotypen über 
    das ganze Genom zu erstellen (11). 

    Die internationale Arbeitsgruppe für die SNP-Kartierung (die ISMWG) 
    wollte abschätzen, wieviele SNPs (s. Pharmakogenetik, Teil III) pro Gen 
    nicht nur eine Markerfunktion über eine Distanz haben, sondern einen direkten Einfluss auf die Aktivität ausüben. Dazu brauchten sie die durchschnittliche Ausdehnung eines Gens, einschliesslich seiner Regulationsbereiche. Sie schrieben dazu: „Da wir die Ausdehnung der nicht-codierenden (regulatorischen) Regionen eines jeden Gens nicht definieren 
    können, definierten wir willkürlich für jedes Gen eine Ausdehnung, die 
    10 kb vom ersten Exon stromaufwärts reicht“ (12). Eine Pauschalisierung 
    also, die nur vorläufige Ergebnisse liefern kann. 
     

      (1)  http://www.google.com/search?q=cache:PIW9MdVcnnc:
           www.biosino.org/bioinformatics/Impact%
           2520of%2520human%2520genome%
           2520sequencing%2520for%2520in%2520silico%2520target%
           2520discovery.pdf+Structural+genomics+consortium+SGC&hl=de = P. Sanseau, Impact 
             of human genome sequencing for in silico target discovery, Drug Discovery Today, 
             Bd.6, S. 316-323, (März 2001).

      (2)  L. Stein, Genome annotation: from sequence to biology, Nature Reviews Genetics 
             Bd. 2, S. 493-494 (Juli 2001).(Der Autor ist aus dem Cold Spring Harbor-Labor)

      (3)  A. Pandey u. M. Mann, Proteomics to study genes and genomes, Nature, 
             Bd. 405, S. 837-846 (Juni 2000).

      (4)  C. O´Donovan, R. Apweiler u. A. Bairoch, The human proteomics initiative (HPI), 
             Trends in Biotechnology, Bd. 19, S. 178-181 (Mai 2001).

      (5)  H. Michel, Die Sequenzierung des Humangenoms – aufs falsche Pferd gesetzt?
             Biospektrum 1/99 S. 4.

      (6)  P. Spence u. R. Aurora, From reductionist to constructionist, but only if we integrate, 
            Pharmainformatics, Supplement-Band der "Trend"-Zeitschriften von Elsevier Science 
            Ltd., S. 37-39, 1999. (Die Autoren sind von Monsanto).

      (7)  D. Eisenberg, E.M. Marcotte, I. Xenarios u. T.O. Yeates, Protein function in the 
             post-genomic era, Nature, Bd. 405, S. 823-826 (Juni 2000).

      (8)  S.T. Kim, http://C. elegans: Mining the functional genomic landscape, Nature 
            Reviews Genetics, Bd. 2, S. 681-689 (Sep. 2001).

      (9)  http://www.aapspharmaceutica.com/scientificjournals/,
           pharmsci/journal/01_31.html
             J.L. Lucas, J.A. DeYoung u. W. Sadee, Single nucleotide polymorphisms of the 
             human M1 muscarine acetylcholine receptor gene, AAPS PharmSci (Zeitschrift für 
             pharmazeutische Wissenschaften der American Association of Pharmaceutical 
             Sciences), Nov. 2001.

      (10) E. T. Maggio u. K. Ramnarayan, Recent developments in computational proteomics, 
             Trends in Biotechnology, Bd. 19, S.266-272 (Juli 2001).

      (11)  D. Goldstein, Islands of linkage disequilibrium, Nature Genetics, Bd.29, S.109-111 
              (Okt. 2001).

      (12) Autoren: The International SNP Map Working Group (ISMWG), A map of human 
             genome sequence variation containing 1.42 million single nucleotide polymorphisms, 
             Nature Bd. 409, S.929-933 (Febr. 2001).
       



     
    IV. Die Funktionsaufklärung von Genen

    Den Ort eines Gens zu kennen, hat nur dann einen Sinn, wenn man etwas über seine Funktion weiss. Deshalb ist die Aufklärung der Genfunktionen nach dem Abschluss der Sequenzierung die Hauptaufgabe der Forschung. [ mehr ]


    V. Proteomik, die Gesamtheit aller Proteine, ihrer Aktivitäten und Regulationen

    Zum Verständnis der Genfunktionen gehören Kenntnisse über die Beschaffenheit, Aktivität und Wechselwirkungen ihrer Produkte, der Proteine. Das Arbeiten mit Proteinen ist schwerer zu automatisieren als das mit Genen und daher sehr aufwendig.[ mehr ]


    VI. Die Raumstruktur der Proteine

    Die Aufklärung der räumliche Strukturen von Proteinen ist ein ganz entscheidendes Problem der postgenomischen Forschung. Die Kenntnis der räumlichen Beschaffenheit, besonders die der aktiven Zentren und Bindungsstellen, ist unverzichtbar für das ursächliche Verstehen der Funktionen und sie bildet die Grundlage für die Bindung möglicher Wirkstoffe und damit für die neue Art, Medikamente zu entwickeln. Aber gerade hier gibt es Probleme, deren Lösung noch in den Anfängen steckt. 
    [ mehr ]


    VII. Entdeckung von Medikamenten 
    mit den neuen Technologien

    Das Hauptziel aller geschilderter Bemühungen, die Funktion der Gene aufzuklären, ist es, auf eine neue Art Wirkstoffe zu finden, die als Medikamente verwendet werden können. Neu ist dabei in jedem Fall die Art der Suche. Die Wirkstoffe selbst sind generell nicht neuartig. Grundsätzlich geht es darum, auf der Grundlage der Kenntnisse aus der Genomsequenz mit Hilfe automatischer Methoden Substanzen zu finden, die in ein Krankheitsgeschehen eingreifen können. [ mehr ]


    VIII. Wieviel kostet die Entwicklung eines Medikamentes?

    Die angegebenen Kosten für die Entwicklung eines Medikamentes sind 
    astronomisch hoch und steigen weiter an. Aufgrund der letzten Studie vom 
    November 2001 liegen sie bei 802 Mio.$. Verbraucherorganisationen 
    kommen zu anderen Ergebnissen.  [mehr ]
     
     


     

    Linde Peters 
    linde.peters@t-online.de
    .
    . .. Erstellt am 26.07.02 / Letzte Änderung am 27.01.03

    auswahl          zurück       weiter      nach oben      home