Die Lebensweise beeinflusst die Funktion
Es ist ein Gesetz der Evolution, dass wenn zwei Arten
im selben Lebensraum die gleiche Lebensweise haben, nur eine von beiden
überlebt. Umgekehrt bedeutet das "fast per Axiom", dass zwei verschiedene
Organismen in einem gemeinsamen Lebensraum unterschiedliche Überlebensstrategien
entwickelt haben müssen. Das wiederum schliesst mit ein, dass zwei
sich funktionell und in der Herkunft entsprechende (orthologe) Proteine
möglicherweise nicht in genau derselben Weise zum Überleben der
Art beigetragen haben, also partiell unterschiedliche Funktionen haben
müssen (3).
Die Beziehung Ein-Gen-eine-Funktion ist nicht immer
gegeben
- Eine weitere Komplikation kann darin liegen,
dass Gene im Laufe der Evolution
funktionelle Domänen aufnehmen
oder verlieren können. So kann ein Protein mehr als
einen "Vorfahren" haben. (Das sind
natürlich entstandene chimärische Proteine) (1).
- Wird ein morphologisches Merkmal durch die
kollektive Wirkung vieler Gene
erzeugt, könnte es sein,
dass eine Mutation in einem einzelnen dieser Gene keine
erkennbare Veränderung bewirkt,
weil das Gen nur in einem kleinen Teil des
genetischen Netzwerkes arbeitet oder
weil es vollständig redundant ist (8).
- Umgekeht kann es sein, dass die Mutation
eines einzigen Gens zu einer Kaskade
von Veränderungen führt,
die im weiteren Verlauf weitreichende Effekte zur Folge
hat, so dass man nur schwer zwischen
primären und sekundären Wirkungen
unterscheiden kann (8).
In allen drei Fällen kann die Zuordnung einer
Funktionen zu einem Gen
erschwert sein.
Nachträgliche Modifikationen verändern die Proteinfunktion
Ausserdem fehlt bei der automatischen Vorhersage von Proteinfunktionen
jegliche Information über posttranslationale Modifikationen
(PTMs, das sind nachträgliche chemische Veränderungen am Protein,
die nicht vom selben Gen gesteuert werden.)
Dazu gehören:
Abspaltung von Signalsequenzen,
Abspaltung von Transit- oder Pro-Peptiden,
Abspaltung des Start-Methionins,
Anheftung von Gruppen, wie Acetyl-, Methyl-, Zucker-, und Lipid-, Phosphoryl-
oder Sulfatgruppen,
innermolekulare oder nach aussen gerichtete Vernetzungen durch S-S-Bindungen.
Z.Zt. sind über 100 verschiedene Modifikationen bekannt und die Entdeckung
weiterer wird erwartet (9).
Wir sehen also eine grosse Vielfalt an Beziehungen zwischen Genen
und Funktionen, so dass einfache Rückschlüsse nicht immer möglich
sind.
Zu Punkt 3: Fehler in den Datenbanken
Ein erheblicher Anteil der konventionell erarbeiteten Gen-Deutungen
ist nicht korrekt
In einer Studie wurden drei Veröffentlichungen mit Funktionsangaben
über 340 Gene von Mycoplasma genitalis (dem nicht-parasitischen Organismus
mit dem kleinsten aller bisher gefundenen Genome) verglichen. Dabei
wurden für 8% der Gene völlig unkompatible Deutungen gefunden.
Die tatsächliche Zahl von Fehlern ist wahrscheinlich höher,
weil
beim Vergleichen nur Unterschiede in der Deutung registriert wurden.
Zu den 8% kommen also die Gene hinzu, die von allen drei Arbeitskreisen
gleichlautend falsch interpretiert wurden. Dafür gibt es eine erhebliche
Wahrscheinlichkeit, weil alle Arbeiten auf denselben derzeit gängigen
Methoden und Grundannahmen beruhen. "Die Deutungsfehler eskalieren dramatisch",
wenn solche falschen Daten in die Datenbanken eingegeben und wenn "mit
den daraus resultierenden falschen Ergebnissen weitere Datenbanken gefüttert
werden," heisst es in der Studie (10).
Wieviel Prozent Homologie haben wieviel Aussagekraft?
Hierzu wurden ebenfalls verschiedene Forschungsarbeiten an Mikroorganismen
miteinander verglichen, u.zw. auf zweierlei Weise:
Erstens wurde untersucht, wie gross die Sequenzübereinstimmungen
zwischen Proteinen sind, die bisher für Homologievergleiche herangezogen
wurden. Die Autoren fanden, dass die meisten Vergleiche mit Proteinen durchgeführt
wurden, deren Sequenzen zu gut 30% identisch waren. Zweitens wurde innerhalb
ganzer Sätze von Proteinen, deren Funktionen bereits gut bekannt sind,
nachgeschaut, wie ähnlich die Funktionen bei der oben festgestellten
durchschnittlichen Sequenzübereinstimmung von gut 30% tatsächlich
sind.
Dabei fanden die Autoren nur 5% Abweichungen bei groben Funktionsbezeichnungen
(z.B. Transport), aber bis 40% Abweichungen, wenn die Funktion detailliert
benannt wurde (z.B. Phosphat-Transport). Diese Fehlerrate könne
jedoch verringert werden – so heisst es - durch Einbeziehen anderer Kriterien,
wie dem genomischen und physiologischen Kontext (z.B. Einbeziehen des Stoffwecheslweges,
an dem die Funktion beteiligt ist, der Zugehörigkeit zu einer Proteinfamilie
oder von Informationen aus der Evolution des Gens) (11).
Warum gibt es keine systematische Fehlerbewertung?
Die Autoren meinen, es sei paradox, "dass auf die ausgeklügelten
computerisierten Methoden, die bei der Sequenzierung und Kommentierung
ganzer Genome verwendet wurden, keine systematische Bewertung der bei diesen
Vorhersagen auftretenden Fehler gefolgt ist (11)."
Und noch eine grundlegende wichtige Unzulänglichkeit der bisher
entwickelten automatischen Methoden: kleine Proteine sind damit nicht auffindbar
(9). Es gibt aber sehr viele kleine Proteine mit entscheidenden Funktionen
für viele biologische Prozesse (z.B. Peptidhormone, Cytokine)
b) Zum Umgang mit der Fehlerhäufigkeit
Patente auf die Arbeit von Computern?
Trotz der hohen Fehlerrate genügt für eine Patentierung
von Genen, sowohl nach US-amerikanischem Recht als auch nach der EU-Patent-Richtlinie,
die Funktionszusprechung nach Homologievergleich. Selbst Francis Collins,
der Leiter der US-amerikanischen Sektion des Human Genome Project hat kritisiert,
dass Tausende von Patentanträgen auf Angaben basieren, die nur
aus
dem Vergleich von Gendatenbanken im Computer resultieren (12). An
der staatlichen Universität in New York wurde eine Umfrage unter
den wissenschaftlichen Mitgliedern der US-amerikanischen Gesellschaft
für Humangenetik durchgeführt. Von den über 1200 Befragten
sehen
90% im übermässigen (excessive) Patentieren ein Problem,
sogar bei Industriewissenschaftlern sind es 86%. 5% lehnen Patente auf
DNA ab, gleich ob kurze oder lange Bereiche, ob mit oder ohne Funktionsangaben
(13).
Bei Unzulänglichkeit der Automaten – zurück zur Handarbeit?
Wegen der grossen Fehlerhäufigkeit wird vor einer unbesehenen
Verwendung von Informationen aus den Datenbanken gewarnt. Man solle
darauf achten, ob die Daten ausgiebig manuell überprüft wurden
(14).
Manuell überprüfen? Das klingt, als würde das Rad des
Fortschritts rückwärts gedreht! Aber es ist tatsächlich
so und die Begründung klingt
fast etwas nostalgisch: im Anschluss an einen Hochdurchsatzlauf würde
die Funktionsaufklärung entscheidend abhängig von einer konventionellen,
von
Hypothesen ausgehenden Forschung (1). Das ist tatsächlich
ein Schwenk rückwärts, denn andere Autoren sind gerade
dabei, sich von den guten alten Hypothesen als Forschungsgrundlage zu verabschieden:
"In
gewisser Weise ist die derzeitige Lifescience-Forschung Technologie-getrieben
und neue Instrumentarien haben dazu beigetragen, dass sich diese Arbeiten
von Hypothese-getriebenen zu Entdeckungs-getriebenen Untersuchungen entwickelt
haben," schreibt der US-Wissenschaftler Kelvin Lee, Spezialgebiet:
Chemical Engineering (15).
Wird der künftige Forscher forschende Automaten bauen?
Mit anderen Worten: der Motor wissenschaftlicher Arbeit waren bisher
die gedanklichen Schlussfolgerungen und Ideen von Wissenschaftlern, die
im Diskurs zur Übereinstimmung gebracht wurden, heute dagegen sind
es massenhaft anfallende maschinenerstellte Daten, die das Ausgangmaterial
für weitere
Daten bilden. Der menschliche Beitrag liegt in der Steuerung
der Suchdurchläufe und (zum Teil) im Erkennen des Brauchbaren. An
oberster Stelle steht nicht mehr der menschliche Geist im Dienste
der Naturgesetze, sondern die von Menschen gemachte Maschine. Der
Mensch selbst ist ins zweite Glied getreten.
Es scheint, dass die bisherige Form der Forschung angesichts der
hochvernetzten Kompexitäten des Zellgeschehens an eine Machbarkeitsgrenze
geraten ist und dadurch die Automation notwendig gemacht hat. Aber
wird die Computertechnik nicht auch auf Grenzen stossen?
Vielleicht läuft die Entwicklung in Richtung auf eine Kombination
beider Arbeitsansätze. Das wäre aber auch eine Kombination der
Nachteile. Bedauerlich ist, dass diese ernste Problematik mit einer
Sprache zugekleistert wird, die aus der Werbung stammt und die es bis vor
kurzem in der Wissenschaft nicht gegeben hat (vgl. Teil I).
Wie später ausgeführt werden soll, gibt es erste Hinweise darauf,
dass die neuen Technologien nicht so viele verwertbare Ergebnisse liefern
wie erhofft, und dass auch deshalb sich die Blicke nach rückwärts
zu richten beginnen.
Qualitätsangaben für Daten
Um das Problem der Fehldeutungen besser einschätzen zu können,
werden die Einträge in den Datenbanken mit Qualitätsangaben
versehen
wie "vorhergesagt", "provisorisch" oder "überprüft". Bisher
trägt nur ein kleiner Teil der Daten das Prädikat "überprüft".
Im Mai 2001 waren es
in der Bank für Referenzsequenzen (RefSeq-Bank) des US-National
Center for Biotechnology Information (NCBI) von gut 12 000 Einträgen
nur gut 2000 (14).
Der technische Aufwand ist sehr gross
Die folgende Schilderung einer Geräteanordnung soll einen Eindruck
vermitteln, in welchen Dimensionen solche Analysen ablaufen: Das Gen-Deutungssystem
"Ensembl" besteht aus einem "Cluster" von 500 Computern und einer "Pipeline"
mit Deutungsprogrammen. Die zu untersuchende Sequenz wird in die Pipeline
eingeführt, und dann durch eine "Suite" von Gen-Vorhersage-Programmen
gejagt. Dazu gehören verschiedene Ähnlichkeits-Such-Algorithmen
auf Nucleotid- oder Proteinbasis sowie Protein-Domänen-Suchprogramme
(1).