Nachteile dieser Methode sind:
Es können nur solche Gene gefunden werden, die in dem untersuchten
Gewebe zu dem Zeitpunkt aktiv sind. Bei der Gen-Suche mit ESTs bleiben
10
– 20% der Gene unerkannt (1).
Es gibt Pseudogene, deren DNA zwar in eine RNA transkribiert wird, aber
ohne dass darauf eine Proteinsynthese folgt oder eine andere biologische
Aktivität. Diese Pseudogene werden von der cDNA-Methode miterfasst.
B) Suche nach Start- und Stop-Signalen
Eine andere Methode beruht auf dem Abstand zwischen Start- und Stopcodon.
Die Ablesung eines Gens beginnt immer an einem Startcodon und endet an
einem Stopcodon. D.h. innerhalb der abgelesenen Strecke dürfen keine
Stopcodons vorkommen, sonst würde die Ablesung des Gens an der Stelle
abgebrochen werden. Solche Anordnungen aus Start- und Stopsignal mit einer
Strecke dazwischen, die frei ist von Stopsignalen, treten natürlich
auch rein zufällig in ungeordneten, nicht-codierenden Bereichen auf.
Sie sind also kein Beweis für eine Genfunktion. Man kann nun errechnen,
wie lang solche signalfreien Strecken rein statistisch im Durchschnitt
sind. Dann definiert man eine Länge, die um ein bestimmtes Mass über
diesem Wert liegt, und kann dann sagen, die Wahrscheinlichkeit, dass diese
Länge rein zufällig erreicht würde, sei so gering, dass
man davon ausgehen könne, dass hier ein Gen vorliege. Aber erstens
ist das nie ganz sicher und zweitens bleiben dabei alle Gene unerkannt,
die kürzer sind als das definierte Mass (2).
C) Gensuche durch Test auf Leserahmen
Eine weitere Gen-Suchmethode beruht darauf, zu prüfen, ob das Spleissprodukt,
also die ausgereifte mRNA, einen phasengerechten Leserahmen enthält,
d.h. ob es die Voraussetzungen für die Produktion von Proteinen besitzt.
Aber auch die Existenz eines Leserahmens bedeutet nicht notwendigerweise
die Existenz eines funktionierenden Gens (3).
D) Suche nach Exon-spezifischen Strukturen oder Exon-spezifischen
Basenzusammensetzungen
Andere Suchprogramme machen von Strukturen Gebrauch, die für Exons
typisch sind, oder davon, dass in den Genen der Gehalt der Basen G und
C grösser ist (2), aber es gibt noch keine Software, mit der alle
Exons entdeckt werden können (4).
Unschärfen in der Erkennung summieren sich
Es gibt auch noch keine klaren Unterscheidungsmöglichkeiten
zwischen den Introns, also den nicht codierenden Abschnitten innerhalb
eines Gens, und den nicht-codierenden Bereichen ausserhalb der Gene.
Eine Teillösung hierfür sind so genannte RepeatMasker, das ist
eine Software, die Sequenzwiederholungen erkennt und von der Gensuche ausschliesst
(2), aber nicht alle Zwischen-Gen-Bereiche emthalten Repeats.
Um die Trefferquote einer solchen Methode zu testen, führt man
sie mit bereits bekannten Sequenzen durch, z.B. solchen von besonders gut
untersuchten Modelltieren, wie dem Fadenwurm Caenorhabditis, der Fruchtfliege
Drosophila oder der Maus.
Caenorhabditis: Bei der inzwischen vollständig
bekannten DNA-Sequenz des Nematoden (Fadenwurms) Caenorhabditis elegans
lassen sich die Intron-Exon-Grenzen nur für 92% der Introns genau
feststellen. Da jedes Gen bei C. elegans im Durchschnitt aus fünf
Exons und vier Introns besteht, ergibt sich pro Gen eine Fehlerrate von
knapp 32%. Die Enden der Gene aufgrund der Basensequenz der DNA festzustellen,
ist nur in 70% der Fälle möglich. Das senkt die Vorhersage für
die mRNA und damit für die Aminosäuresequenz auf 46%.
Drosophila: Ähnliche Zahlen ergaben
sich bei der Taufliege Drosophila. Auf die Frage, ob ein bestimmtes Nucleotid
innerhalb oder ausserhalb eines Exons liegt, erhielt man 5 – 10% Falschmeldungen.
Die Fehlerrate stieg, wenn die Grenzen eines Exons angesagt werden sollten,
und sie stieg weiter, wenn nach der gesamten Struktur eines Gens gefragt
wurde. Die besten Programme lieferten 60-70% Fehler. Das bedeutet, dass
die Mehrzahl der mit solchen Programmen durchgeführten Gen-Bestimmungen
fehlerhaft ist. Die Fehler reichen von falschen Exon-Begrenzungen
über fehlende Exons zu Phantom-Exons, die gar nicht existieren. 5-15%
der Gene wurden überhaupt nicht gefunden.
Mensch: Beim Menschen muss mit einer eher noch höheren
Fehlerrate gerechnet werden, weil die Gene mehr Exons enthalten (5)
und weil der Anteil der nicht-codierenden Bereiche grösser ist als
bei Drosophila (2). Ähnliche Analysen an dem bereits aufgeklärten
menschlichen Chromosom 22 zeigten eine Tendenz, zu viele Gene zu finden.
Es wurden zwar 94% der Gene entdeckt, aber nur 20% hatten die richtige
Exon-Intron –Struktur und 16% der Exons wurden überhaupt nicht gefunden
(1).
E) Suche nach Genen durch Erkennen alternativer Spleissstellen
Es gibt Sensoren für alternative Spleissstellen. Diese Arbeiten
sind aber noch nicht weit fortgeschritten. Alternatives Spleissen gilt
als eins der grössten Hindernisse für das automatische Auffinden
von Genen (2,4). Die Spleissstellen sind - ähnlich wie die Enden der
Gene und die Exon-Intron-Grenzen - nicht genau vorhersagbar. Da es vor
und nach jedem Exon Spleissstellen geben muss, summieren sich auch diese
Unschärfen mit der Zahl der Exons zu erheblichen - zusätzlichen
- Ungenauigkeiten.
F) Homologievergleiche für das Auffinden von Genen
Eine partielle Hilfe in diesem Dilemma sind Homologievergleiche. Homolog
nennt man verwandte Gene mit gemeinsamen Vorfahren und Ähnlichkeiten
in der Sequenz. Man kann daher die Sequenz eines Gens dazu verwenden, in
Datenbanken nach ähnlichen Sequenzen zu suchen, z.B. indem man von
einem gut erforschten Gen der Maus ausgeht und nach einem entsprechenden
(und wie man hofft funktionsgleichen) Gen beim Menschen sucht.
Unzulänglichkeiten der Homologiemethode für die Suche nach
Genen
Aber auch hier gibt es Probleme. Nur für etwa die Hälfte
aller Gene existieren Homologe (1, 6-8). Ausserdem machen auch hier
die schon erwähnten Pseudogene Schwierigkeiten. Man braucht also
zusätzlich
zur Entdeckung homologer Sequenzen den Beweis, dass diese Sequenzen
tatsächlich als Gene fungieren. Ein solcher Beweis wäre, dass
sie nach der Transkription zu mRNA gespleisst werden. Damit klammert
man aber
alle Gene aus, die nur aus einem Exon bestehen und folglich
kein
Intron besitzen, das herausgespleisst werden könnte (2).
Zu den Genen mit nur einem Exon gehören die Gene für G-Protein-gekoppelte
Rezeptoren (GPCRs). GPCRs sind Membranproteine deren Beteiligung an
einer ganzen Reihe von Krankheitsgeschehen erst unlängst bekannt wurde.
Die unter ihnen
häufig auftretenden genetischen Varianten sind die Ursache
für viele
der abweichenden Reaktionen auf Medikamente (9). Wegen der
Beteiligung an Krankheitsgeschehen haben sie als Targets (Zielstrukturen)
für die Suche nach neuen Medikamenten (s. Teil
VII, C) eine herausragend grosse Bedeutung erlangt und sind wegen der
zahlreichen
genetischen Varianten ein wichtiger Gegenstand der Pharmakogenetik
geworden.
G) Erkennen von Genen aus der Sequenz (ab-initio-Methode)
Der Wunschtraum aller Computer-Gentechnologen ist es, eines Tages
alles aus der DNA ablesen zu können, „ab initio“, also sozusagen
vom Ursprung der Bioinformation aus. Allein die Sequenz soll dann, vermittelt
durch Algorithmen, anzeigen,
wo Gene liegen,
welche Aminosäuresequenzen die von ihnen gebildeten Proteine haben,
aus der Aminosäuresequenz der Proteine soll auf deren Faltung geschlossen
werden und
aus der räumlichen Verteilung der funktionellen Gruppen im Protein
auf seine Funktion, z.B. darauf,
welche Moleküle als Bindungspartner in Frage kommen,
und welche der Bindungen zu Nebenwirkungen führen (vgl. Pharmakogenetik
Teil II, B).
Zur Zeit ist man bei den (hier interessierenden) ersten vier Stufen noch
weitestgehend auf Homologievergleiche angewiesen, mit immer den gleichen
zwei Nachteilen:
-
Die Zahl der verfügbaren Homologen ist begrenzt und
-
wirklich Neuartiges bleibt auf diese Weise unentdeckt.
Da mit den Homologie-Methoden Vergleiche mit bereits Bekanntem
angestellt werden, greifen sie nicht am Ursprung der biologischen
Information an. Die Bezeichnung "ab initio" für diese Art von
Ableitungen aus der DNA-Struktur ist demnach nicht berechtigt
und eigentlich eine Irreführung. Solche Vergleichsanalysen werden
auch "knowledge-based" genannt (10). Das klingt chic, bestätigt aber
nur,
dass sie auf bereits vorhandenem Wissen basieren.
Die ab-initio-Methoden erwiesen sich ausserdem bisher als total ungeeignet,
solche Gene zu finden, die nicht für Proteine codieren, sondern für
Ribonucleinsäuren (RNAs) (1).
H) Was wir noch gar nicht können: Erkennen von Regulationsbereichen
Jede Genaktivität steht unter der Kontrolle von verschiedenartigen
Regulatoren. Sowohl die Umsetzung der DNA in die mRNA (Transkription) also
auch die Proteinsynthese nach der Anweisung der mRNA (Translation) werden
auf vielfältige Weise reguliert.
- Es gibt Sequenzen, die die Aktivität eines Gens oder einer
ganzen Abfolge
zusammen agierender Gene "einschalten", genannt
Operator.
- Es gibt Sequenz-Bereiche, die eine Gen-Aktivität hemmen
oder nicht, je
nachdem, welche Substanzen direkt oder indirekt
(z.B. über die Bindung
an bestimmte Proteine) mit ihnen reagieren. (Die
hemmenden Substanzen
werden Inhibitoren genannt und die Proteine, die
die Hemmung vermitteln,
bezeichnet man als Repressoren.)
- Es gibt ausserdem Aktivitätsbeschleuniger (genannt Enhancer)
und
Aktivitätshemmer (genannt Silencer). Beide können
sich weit ab von dem
Gen befinden, auf das sie ihre Wirkung ausüben.
- Andererseits gibt es auch Regulatoren innerhalb von Genen und
zwar. in
einigen der nicht abgelesenen Teile, den Introns,
meist im ersten oder
zweiten Intron.
Ohne diese Regulationsbereiche zu kennen und zu lokalisieren, kann man
das Stoffwechselgeschehen nicht verstehen und daher auch seine eventuellen
Entgleisungen nicht beeinflussen.
Zwei Zitate sollen zeigen, dass das Ausmass der derzeitigen Unkenntnisse
nicht etwa nur eine negative Sicht der Gentechnikkritiker ist, sondern
auch
von Wissenschaftlern gesehen wird:
David Goldstein vom University College in London schlägt vor, wegen
der „Unkenntnisse, z.B. über die Abstände zwischen den Enhancern
und den Genen, die sie beeinflussen“, eine Kartierung der Haplotypen
über
das ganze Genom zu erstellen (11).
Die internationale Arbeitsgruppe für die SNP-Kartierung (die ISMWG)
wollte abschätzen, wieviele SNPs (s. Pharmakogenetik,
Teil III) pro Gen
nicht nur eine Markerfunktion über eine Distanz haben, sondern
einen direkten Einfluss auf die Aktivität ausüben. Dazu brauchten
sie die durchschnittliche Ausdehnung eines Gens, einschliesslich seiner
Regulationsbereiche. Sie schrieben dazu: „Da wir die Ausdehnung der
nicht-codierenden (regulatorischen) Regionen eines jeden Gens nicht definieren
können, definierten wir willkürlich für jedes
Gen eine Ausdehnung, die
10 kb vom ersten Exon stromaufwärts reicht“ (12). Eine Pauschalisierung
also, die nur vorläufige Ergebnisse liefern kann.