Den SNPs wurde noch bis vor Kurzem eine überragende Bedeutung
für das Orten von Genen zugeschrieben. Das hat ein Wettrennen und
heisse Diskussionen um ihren Besitz ausgelöst (s. später). Inzwischen
ist mit neuen Erkenntnissen der Bedeutungsschwerpunkt in Richtung Haplotypen
weitergewandert (s.Abschn. F).
A) Auffinden von SNPs
Man schätzt, dass im Durchschnitt jedes 1000. Nucleotid ein SNP
ist, dass es also insgesamt etwa 3 Millionen davon gibt. Innerhalb der
Gene sind sie seltener, denn da die Veränderung eines Gens häufiger
biologische Nachteile als Vorteile hat, entsteht ein Selektionsdruck, Gene
unverändert zu erhalten.
1) Die ersten SNPs wurden bei der Genomsequenzierung gefunden
Wie werden SNPs gefunden, d.h. wie spürt man man punktuelle Sequenzunterschiede
zwischen sonst gleichen DNA-Ketten auf? Die ersten SNPs fand man bei der
Genomsequenzierung. Einer der Schritte bei der Entschlüsselung langkettiger
Sequenzen besteht darin, die sequenzierten Teilstücke richtig zusammenzupuzzeln.
Hierzu sucht man (anders als beim Puzzel) nach gemeinsamen Bereichen (Überlappungen),
um Zusammenghörendes zu erkennen und die Teilstücke in die richtige
Reihenfolge zu bringen. Stammten die überlappenden Stücke von
verschiedenen Personen, so wurden dabei auch zufällig vorhandene SNPs
erkannt. Diese als Nebenergebnisse angefallenen SNPs wurden von den Sequenzierern
zwar als korrekt bezeichnet, aber im nachhinein konnte z.B. bei der eingehenden
Analyse des Gens für den Muscarin-Rezeptor kein einziges der aus
der Gesamtsequenz vorhergesagten vier SNPs bestätigt werden. Auch
im nicht-polymorphen Teil der Sequenz wurden zwei falsch angegebene Nucleotide
gefunden (1). Dies ist einer von etlichen Hinweisen darauf, dass die
in hoher Geschwindigkeit, in schärfster Konkurrenz zwischen verschiedenen
Labors und mit einem hohen Automatisationsgrad erstellte Sequenz des
menschlichen Genoms viele Fehler enthält.
Um SNPs zu finden, muss man die zu untersuchenden Sequenzen verschiedener
Personen vergleichen. Will man krankheitsbezogene SNPs identifizieren,
vergleicht man z.B. Gene von Patienten mit denen von Kontrollpersonen.
Auch Expressionsprofile, die unter der Einwirkung bestimmter Medikamente
entstehen, können die an der Wirkung beteiligten Gene anzeigen. Im
Umfeld so identifizierter Gene kann dann gezielt nach SNPs gesucht werden.
2) Hybridisierung zum Testen auf bereits bekannte SNPs
Geht es nicht um das Auffinden neuer SNPs, sondern um das Wiederfinden
bestimmter bereits bekannter SNPs, so verwendet man meist eine Hybridisierungsmethode
auf Chips.
Dazu werden von den gesuchten Sequenzen die komplemetären
Gegenstücke hergestellt und auf Chips aufgebracht. Wenn man nun einen
solchen Chip mit einer Lösung von verschiedenen DNA-Stücken zusammenbringt
(inkubiert), so verrät sich ein Exemplar mit der gesuchten Sequenz
dadurch, dass es sich an sein Gegenstück auf dem Chip bindet (hybridisiert).
Unterscheiden sich zwei Sequenzen nur sehr geringfügig (und das ist
der Fall, wenn ein SNP der einzige Unterschied ist) so können sie
trotzdem Hybride bilden, die aber etwas weniger stabil sind. Um solche,
etwas schwächeren Hybridisierungen charakterisieren zu können,
wurde eine ganze Reihe von ausgefeilten Methoden ausgearbeitet, mit verschiedenen
Nachbehandlungen nach der Hybridisierung, um den Ort der Instabilität,
also die nicht-hybridisierte Stelle (mismatch) – das ist der Ort des SNPs
- erkennbar zu machen (2).
3) Eine brute-force-Variante der Hybridisierungstechnik
(Zum Begriff "brute force" s .
Postgenomik
IV B)
Eine Voraussetzung bei der Hybridisierungstechnik ist eigentlich, dass
man weiss, wonach man sucht, denn schliesslich kann man die komplentären
Sequenzen nur herstellen, wenn man die richtigen kennt. Trotzdem gab die
Firma Affymetrix bekannt, sie habe eine Technik entwickelt, die es erlaube,
mit Hilfe von Hybridisierungen auch nach neuen SNPs zu suchen.
Die Firma berichtet, sie habe "universelle" Nucleotidsammlungen
entwickelt, dabei würden von "sämtlichen möglichen" 20 Nucleotide
langen DNA-Sequenzen mit Hilfe von Computer-Kriterien 32 000 auswählt
und auf Chips synthetisiert. Die Computer-Auswahlkriterien seien so gewählt,
dass möglichst viele dieser erdachten 20- bp-Stücke mit der zu
untersuchenden, genomischen DNA hybdridisieren sollten, aber möglichst
wenige mehr als einmal (3).
Das klingt – ein geeignetes Computerprogramm vorausgesetzt
– logisch, eine echte brute-force –Methode. Innerhalb einer bestimmten
logischen Umgrenzung sollen alle Möglichkeiten erfasst und
durchgecheckt werden, so dass man eine nach gewählten Kriterien vollständiges
Auswahl erwarten kann. Die Anzahl der theoretisch möglichen Kombinationen
von 20 Basen beträgt aber ca. 1000 Billionen (420 = ca.
1012). Der Anteil der 32 000 Nucleotide an den insgesamt möglichen
ist also unvorstellbar klein, nur ca. eins von 30 Millionen. So gesehen
ist die Bezeichnung "universell" für die Methode und die Berufung
auf die Gesamtheit aller Möglichkeiten eine Farce, ein Werbegerassel
in der üblich gewordenen Superlativ-Sprache. Die Firma hat möglicherweise
analysiert, welche Sequenzen in 20-Basenstücken am ehesten zu erwarten
sind, und diese über ein Programm vom Computer auswählen zu lassen.
Aber da diese Methode 29 999 999 von 30 000 000 Sequenzen wegsortiert,
wird man zwar einzelne neue SNPs auf diese Weise finden können, aber
nur sporadisch und zufällig und auf gar keinen Fall auch nur annähernd
vollständig.
B) Gekoppelte und ungekoppelte Vererbung von SNPs
Nehmen wir an, es kommt bei einem Menschen zu zwei Mutationen. Nennen
wir die Gene "A" und "B" und zwar die unmutierten Formen "A°" und "B°"
und die mutierten "A*" und "B*". Nachdem die zwei Mutationen stattgefunden
haben, besitzt der Mensch von jedem der Gene eine mutierte und eine
unmutierte Version. Liegen A und B auf getrennten Chromosomen, so werden
sie unabhängig voneinander vererbt. Einige Generationen später
wird nur ein sehr kleiner Teil der Nachkommen zufällig beide mutierten
Gene besitzen. Vorausgesetzt, die Mutation ist genetisch neutral (d.h.
sie hat für ihre Träger weder Vor- noch Nachteile), so strebt
die Verteilung der möglichen Kombinationen A*B*, A*B°; A°B*
und A°B° einem Gleichgewicht zu. Dabei wird der Anteil von A*B*
um so kleiner sein wird, je grösser die Population ist. Das nennt
man die Segregation der Gene.
Anders, wenn A und B sich auf demselben Chromosom befinden. Dann werden
A* und B* im Normalfall gemeinsam weitergegeben. Nur wenn in dem zwischen
ihnen liegenden DNA-Abschnitt eine Rekombination stattfindet, d.h.
wenn es hier zu einem Bruch beider DNA-Stränge kommt und danach zu
einer Wiederanknüpfung an den jeweils "falschen" DNA-Strang (s. Abb.1),
nur dann wird die Kopplung der beiden Gene aufgehoben. Je grösser
der Abstand zwischen zwei Genorten, desto grösser die Wahrscheinlichkeit,
dass es in diesem Stück zu einer Rekombination kommt. Die Kopplung
nimmt also einerseits mit dem Abstand auf dem DNA-Strang und andererseits
mit der Anzahl der seit den Mutationen verflossenen Generationen ab.
Abb. 1.
Schematische Darstellung einer Rekombination.
Nach Überkreuzung, Doppelbruch
und "falscher" Wiederanknüpfung der Bruchstücke kommt es zu einer
Entkoppelung der vorher gemeinsam vererbten mutierten Gene A* und B*, denn
sie liegen nun auf verschiedenen Strängen. A° und B° sind
die nicht mutoerten Varianten (allele) der Gene.
Das bedeutet, dass starke Kopplungen bei jüngeren Mutationen gefunden
werden und schwächere bei lange zurückliegenden. Dabei bedeutet
"jünger" vor etwa 20 000– 40 000 Jahren (4), während "ältere"
Mutationen in die Entstehungsgeschichte der Menschheit zurückreichen
(s. Abschnitt über ethnische Unterschiede).
Für den Grad der Kopplung gibt es im Englischen den Fachausdruck
Linkage
Disequilibrium (= LD; Kopplungsungleichgewicht), gemeint ist damit
die Abweichung von dem oben erwähnten Gleichgewicht, das sich bei
ungekoppelter Vererbung einstellt. Je höher der LD-Wert, desto grösser
die Kopplung und desto grösser die Wahrscheinlichkeit, mit der man
von der Existenz des einen Genortes auf die des anderen schliessen kann.
Handelt es sich bei dem einen der miteinander gekoppelten Genorte um ein
Gen und bei dem anderen um eine analysierbare Besonderheit der Sequenz,
so ist diese Sequenzstelle ein Marker für das Gen. Mit Markern
gewonnene Aussagen treffen immer nur mit einer bestimmten Wahrscheinlichkeit
zu, niemals mit 100%iger Sicherheit.
Im obigen Beispiel sind wir von einer sehr unwahrscheinlichen Annahme
ausgegangen, nämlich der, dass die Gen-Variante und ihr Marker gleichzeitig
(d.h. durch zwei Mutationen in derselben Generation) entstanden seien.
Nehmen wir jetzt an, der SNP sei entstanden, bevor die Gen-Variante existierte,
dann wird es von Anbeginn eine Reihe von Personen geben, die den SNP enthalten,
aber nicht das Gen. Handelt es sich dabei um ein krankheitsauslösendes
Gen, so würde ein Gentest ein zu hohes Risiko vortäuschen. Umgekehrt
kann der SNP nach der Gen-Variante entstehen. Dann wird es Träger
der Gen-Variante geben, die den dazugehörigen Marker nicht besitzen.
Ein Test würde in diesem Fall zu wenig gefährdete Personen identifizieren.
Je länger der Zeitabstand zwischen den beiden Mutationen ist, desto
höher sind die Fehlerraten.
C) Die Lage der SNPs im Genom
SNPs sind als Ein-Nucleotid-Mutationen die Folge von Zufallsereignissen.
Daher können sie grundsätzlich überall auftreten. Sie werden
in verschiedenen Bereiche verschieden oft angetroffen, wofür man zum
Teil eine Erklärung hat und zum Teil nicht. Je nach ihrer Lage und
ihren LD-Werten haben sie verschieden grosse Bedeutungen für das Auffinden
von Genen. Die Bewertungskriterien für diese Bedeutung sind durch
neuere Befunde ins Wanken geraten (s. Abschnitt über Haplotypen).
1) SNPs in den codierenden Teilen der Gene
Solche SNPs werden cSNPs genannt (c für codierend).
Sie können zu einem Aminosäureaustausch im codierten Protein
führen. Das geschieht jedoch seltener als rechnerisch zu erwarten.
Wird eine Aminosäure verändert, so kann das Auswirkungen auf
die Funktion des Gens haben oder auch nicht, je nachdem, ob ein essentieller
Teil des Proteins betroffen ist.
Solche SNPs wurden gefunden, z.B. für das Gen, das
für die Verträglichkeit des Asthma-Mittels Albuterol verantwortlich
ist, das ist das Gen für den ß-adrenergen Rezeptor (b2-AR).
Aber von den 13 in diesem Gen gefundenen SNPs zeigten nur zwei eine Wirkung
auf die Bindungseigenschaften des Rezeptors (5).
2) SNPs in den Introns, den nicht abgelesenen Zwischenstücken der
Gene
Die Introns werden nicht abgelesen, weshalb man sie lange für
funktionslos gehalten hat. Dieses Prädikat, nämlich "Junk" (Abfall),
wurde übrigens in voreiliger Grosszügigkeit für alles vergeben,
wofür man zum damaligen Zeitpunkt keine Erklärung hatte, und
muss nun Stück für Stück zurückgenommen werden. Man
fand inzwischen, dass einige Introns regulierende Aktivitäten besitzen,
oft das erste oder zweite und das letzte.
Ausserdem befinden sich hier die Erkennungssequenzen für die Enzyme,
die die Introns aus der RNA-Kopie herausspleissen. Seit einigen Jahren
weiss man auch, dass der Vorgang des Spleissens unterschiedlich ausfallen
kann (vgl. Postgenomik Teil II über das Alternative Spleissen). Die
dabei entstehenden Spleissvarianten der Proteine können wichtige physiologische
Funktionen haben. Auch hierauf können Mutationen in den Introns –
und somit auch SNPs in den Introns – einen Einfluss haben.
3) SNPs in den Regulationsbereichen von Genen
Vor und nach jedem Gen befinden sich DNA-Bereiche, die an der Regulation
des Gens beteiligt sind, aber auch Bereiche, die weit entfernt liegen,
evtl. sogar auf einem anderen Chromosom, können regulierende Funktionen
haben.
Den SNPs der Kategorien 1 – 3 ist gemeinsam, dass ein Teil dieser SNPs
die Funktion des Gens verändert. Es kann sogar sein, dass der SNP
die Krankheit auslöst, die mit der Genvariante verbunden ist. So ein
Fall ist ein Glücksfall für das genetische Testen, denn hier
ist der SNP Verursacher und nicht Marker. Das bedeutet, dass – im Gegenastz
zu sonst – 100%ig sichere Aussagen möglich sind. Das trifft in erster
Linie für die cSNPs zu, weshalb ihnen ein besonders grosses Interesse
gilt.
4) SNPs in der Nähe von Genen, d.h. in einem Abstand, der noch
Kopplungen zulässt, so dass eine Verwendung der SNPs als Marker möglich
ist.
5) SNPs in weitem Abstand von Genen. Diese SNPs können nicht als
Marker dienen.
6) Die SNP-Verteilung weicht aus unbekannten Gründen von der
Statistik ab
Wie schon erwähnt, gibt es im Genom so genannte "heisse Stellen",
in denen Mutationen sehr viel häufiger auftreten als anderswo (6,7)
und hier sind auch die SNPs häufiger und weniger stabil. Ausserdem
sind SNPs beim Menschen in verschiedenen Regionen der Chromosomen verschieden
häufig, mit Schwankungen um das Zehnfache. Die Gründe dafür
sind noch unklar. Möglich ist, dass einige von ihnen einer positiven
Selektion unterliegen, über deren Ursachen man noch keinerlei Vorstellung
hat. Eine positive Selektion bedeutet, dass sie eine Funktion haben
müssen (und das ausserhalb der Gene!).
Es gibt also je nach ihrer Lage und anderen, noch nicht verstandenen
Kriterien SNPs von sehr unterschiedlicher Verwendbarkeit (s.u.) (in
der Literatur anthropologistisch als "Qualität" bezeichnet).
D) SNPs als Marker
Die Frage, ob ein SNP als Marker für ein Gen dienen kann, d.h.
die Frage, ob der SNP statistisch deutlich häufiger mit der Genvariante
gemeinsam als unabhängig von ihr vererbt wird, hängt grundsätzlich
von seinem Abstand zum Gen ab. Die maximale Reichweite, bis zu der eine
gekoppelte Vererbung erkennbar ist, schwankt jedoch sehr stark und liegt
zwischen 5 000 und über 100 000 Nucleotidbasen (5 – 100 kb) (4,8).
Die Ursache für diese Schwankungen liegt in der genetischen Geschichte
einer Population, d.h. hier gibt es deutliche Unterschiede zwischen den
Ethnien.(s.später)
Wegen der unterschiedlichen Entstehungsgeschichte sowohl der einzelnen
SNPs wie auch der Varianten der in der Nähe befindlichen Gene folgen
die Kopplungen keiner Gesetzmässigkeit. Liegen mehrere Gene in der
Reichweite einer Gruppe von SNPs, so kann ein SNP für das eine Gen
einen hohen und für das andere einen niedrigen LD-Wert haben. Für
die anderen Gene kann die Verteilung der Werte ähnlich, umgekehrt
oder völlig anders sein. Die LD-Werte unterliegen also einer starken
Streuung (s. Abb 3, linkes Teilbild).
Das erste Beispiel, an dem solche Kopplungsunterschiede
konkret untersucht wurden, war das ApoE-Gen, das mit einer früh einsetzenden
Alzheimerschen Krankheit in Zusammenhang steht. Im Abstand von 25 kb (Kilobasenpaaren)
zum ApoE-Gen wurden 10 SNPs gefunden, von denen aber nur 3 mit dem ApoE-Gen
gekoppelt auftreten (9).
Oft liegt eine Kopplung nur wenige Prozent über dem Zufallswert
(10). Daher ist es nötig, die Ergebnisse durch eine grössere
Zahl von SNPs abzusichern. Für die Diagnose einer erblichen Krankheit,
die von einem Gen verursacht wird, einer monogenetischen Krankheit,
untersucht man typischerweise einige zig SNPs (2), für eine gute Absicherung
eines Gens braucht man 200 SNPs (10).
Es ist z.B. ganz offensichtlich, dass eine Krankheit, die bei weniger
als jedem tausendsten Menschen vorkommt, nicht von einem einzigen SNP angezeigt
werden kann, der eine Häufigkeit von mehreren Prozent hat. Da SNPs
definitionsgemäss eine Häufigkeit von mindestens 1% haben, folgt
daraus, dass seltene Merkmale, z.B. monogenetische Krankheiten, nur durch
mehrere SNPs in Kombination angezeigt werden können.
E) SNP-Gitter als Grundlage für Massentests an der ganzen
Bevölkerung
Mit SNPs kann man ein genomweites "Gitter" erstellen, eine Art Raster
für die Zuordnung aller dazwischen liegenden Gene. Die Rasterpunkte
müssen so eng gewählt sein, dass die SNPs für alle dazwischenliegenden
Gene noch als Marker in Frage kommen.
Wenn man nun die Zahl der SNPs, die man zur Konstruktion eines Gitters
heranziehen will, so hoch wählt, dass es für fast alle Gene mindestens
ein SNP innerhalb eines verwertbaren Abstandes gibt, so kann eine Analyse
des Gitters (also sämtlicher Gitterpunkte) Rückschlüsse
auf alle Gene liefern. Man erhofft sich auf dieser Grundlage standardisierte
Massentests, aus denen sich für jede Person Anhaltspunkte ergeben
über ihre gesundheitlichen Risiken, über Verträglichkeiten
gegenüber Medikamenten und Umweltchemikalien. Und immer wieder geraten
hierbei auch persönlichkeitsrelevante Faktoren ins Visier: kriminelles
Verhalten, Aggression und Intelligenz. Trotz wiederholter Rückschläge
in der Vergangenheit und äusserst dünner Argumentationslage tauchen
solche Argumente immer wieder auf.
Z.B. wurde die Chromosomen-Konstellation XYY bereits als
"Verbrecherchromosom" bezeichnet. Eine höhere Kriminalität dieser
Männer konnte nicht nachgewiesen werden. Agressives Verhalten wird
mit Serotonin und verschiedenen Komponenten in Zusammenhang gebracht, die
auf den Serotoninspiegel einwirken. Es ist eine Binsenweisheit, dass bestimmte
Substanzen das Verhalten eines Menschen verändern können, man
denke nur an Kaffee, Alkohol, Sexualhormone, Adrenalin u.ä. Warum
also nicht Serotonin? Das erlaubt aber keine differenzierte Einschätzung
einer Person und der Grundlage ihrer Willensbildung. Und wenn es darum
geht, die Ursache für die Gewaltbereitschaft ganzer Bevölkerungsgruppen
zu verstehen, dürfte der Denkansatz über das Serotonin auch nicht
sehr hilfreich sein.
Die für ein SNP-Gitter notwendige Zahl von SNPs wird auf 500 000
bis 1 Million geschätzt (11). Um halbwegs statistisch gesicherte Angaben
über die Häufigkeitsverteilung der so gefundenen SNPs zu erhalten,
müsste man diese Anzahl von SNPs bei etwa 1000 Personen testen. Das
ergibt 500 Millionen bis 1 Milliarde SNP-Tests insgesamt. Zur Zeit reichen
die die Labor-Kapazitäten weltweit nicht aus, um ein so grosses Projekt
in einer vertretbaren Zeit durchzuführen, und vor allem ist der Preis
noch zu hoch (2). Das Testen eines SNPs (SNP genotyping) kostet
1 $. Es wird geschätzt, dass die Kosten in 3 bis 10 Jahren auf 1/100
sinken (12). Das war im August 2001.
Anfang der 90er Jahre war man bei der Planung des Genomprojekts
in ähnlicher Weise vorgegangen. Als die Preise noch unakzeptabel hoch
waren, wurden die Pläne konkretisiert und mit den Vorarbeiten begonnen.
Man setzte darauf, dass die weitere Technologieentwicklung die notwendige
Preissenkung bringen würde. Die Erwartungen wurden damals sogar noch
übertroffen ( s. "Genomprojekt:
Entstehungsgeschichte und Organisation", Abschn.: "Ein 5-Jahresplan für
die Vorarbeiten.")
und wie es aussieht, könnte
Ähnliches auch bei den SNP-Analysen eintreffen. In neueren Mitteilungen
wird bereits ein Preis von 20 – 30 Cents pro SNP genannt (13), aber auch
der unveränderte Preis genannt (14), Juni 2002.
Von den geschätzten 3 Millionen SNPs wurden bisher 2 Millionen
gefunden. Mit Erreichen dieser Zahl wurde die Suche als abgeschlossen bezeichnet
(15), möglicherweise befinden sich die restlichen in unbrauchbaren
Positionen. Die Zahl der codierenden SNPs wird sehr verschieden angegeben:
200-400 000 (3) oder 60 000 (16) oder 1%, das wären nur 30 000 (17).
Eine internationale Arbeitsgruppe aus über 40 Wissenschaftlern beschreibt
eine Gesamtmenge von 1.42 Millionen, die alle öffentlich zugänglichen
SNPs enthält. Danach befinden sich 60 000 in Exons und für 85%
aller Exons liegt mindestens ein SNP nicht weiter entfernt als 5kb (16).
F) Die Gruppierung von SNPs zu Haplotypen führt zu einer
veränderten Sicht
1) Haplotypen: die SNPs gruppieren sich zu Blöcken
Unlängst wurden umwälzende Entdeckungen gemacht, die schnell
von vielen Forschern bestätigt wurden und nun als allgemeingültiges
Prinzip gelten können. Es sind Befunde, die einen Teil der bisherigen
Überlegungen zunichte machen.
Nun möchte ich zu erst einmal etwas weiter ausholen, in der Hoffnung,
die komplexen Sachverhalte dadurch anschaulicher zu machen.
Angenommen, in einem verwertbaren Abstand zu beiden Seiten eines Gens
wurden 10 SNPs gefunden. Angenommen, mit SNP-Analysen bei verschiedenen
Personen wurden in einem Fall die SNPs Nr. 1, 3 und 9 gefunden, in einem
anderen nur 7 und 9, und in einem dritten vielleicht 1, 2, 5, 7 und 8 o.ä.
Theoretisch sind bei 10 SNPs gut 1000 Kombinationen möglich, nämlich
210. Tatsächlich aber fand man in solchen Fällen,
dass einige wenige Kombinationen immer wieder auftauchen und den weitaus
grössten Anteil ausmachen (s. Abb.2). Ist das gemeinsame Auftreten
bestimmter SNPs statistisch gesichert, bedeutet das, dass sie gekoppelt
vererbt werden und folglich auf demselben DNA-Strang liegen. Solche DNA-Abschnitte
mit bestimmmten Kombinationen von SNPs bezeichnet man als Haplotypen.