Der genetische Code in der Datenwolke
Seit das menschliche Erbgut vor über zehn Jahren erstmals entziffert wurde, haben sich die Technologien zur Sequenzierung von Genomen rasant weiterentwickelt. Während im Rahmen des ersten Humangenomprojekts noch über 1000 Forscherinnen und Forscher aus 40 Ländern jahrelang an der Entschlüsselung der menschlichen Gensequenz gearbeitet haben, lässt sich heute das gesamte Genom eines Menschen in wenigen Stunden maschinell sequenzieren. Schon ist die Rede davon, die Sequenz des Genoms über einen an die USB-Schnittstelle angeschlossenen Mini-Sequenzierer im Taschenformat in kürzester Zeit aus einem Bluttropfen auszulesen. Dabei sammeln sich gewaltige Datenmengen an. Denn jedes menschliche Genom besteht aus 3,3 Milliarden Basenpaaren, deren Zusammensetzung in einer Buchstabenfolge beschrieben wird. „Unsere Projektpartner an der Medizinischen Universität arbeiten hauptsächlich nur mit einem Prozent des tatsächlichen Erbguts und dennoch enthält der Datensatz eines Patienten bereits viele Gigabyte an Informationen“, erklärt Sebastian Schönherr aus der Forschungsgruppe Datenbanken und Informationssysteme um Prof. Günther Specht am Institut für Informatik. Die Datenbank-Spezialisten arbeiten dabei eng mit der Arbeitsgruppe um Prof. Florian Kronenberg und Ass.-Prof. Anita Kloss-Brandstätter von der Sektion für Genetische Epidemiologie zusammen. Dort wird im großen Maßstab mit Genomen gearbeitet, gilt es doch durch den Vergleich des Erbguts sehr vieler Menschen mögliche Verbindungen zwischen genetischen Veränderungen und Krankheiten herauszufinden. So landen die anonymisierten Daten von tausenden Patienten und Gesunden auf den Rechnern der Innsbrucker Wissenschaftler. „Dies stellt uns vor enorme technische Probleme, an deren Lösung wir seit fünf Jahren gemeinsam arbeiten“, erläutert Günther Specht.
Internationaler Standard
Das Innsbrucker Forscherteam, in dem auch die beiden
Informatiker Hansi Weißensteiner und Lukas Forer mitarbeiten, entwickelte in
einem ersten Projekt eine Datenbank zur kombinierten Speicherung von Phänotypen
(dies ist das „Erscheinungsbild“ eines Menschen im Sinne von Erkrankungen und
anderen Eigenschaften wie Labormesswerten) und der genetischen Ausstattung. Dies
erlaubt die gleichzeitige Analyse von Gendefekten und den daraus resultierenden
Krankheiten. Dazu werden die anonymisierten Daten von Patienten in die
Datenbank eingespeist und analysiert. Speichern und Rechnen sind die beiden
großen Herausforderungen bei der Verarbeitung der Genomdaten. Dabei muss sehr
gut überlegt werden, wie die Informationen abgespeichert werden. Denn ohne
einen effizienten Zugriff verlängert sich die Laufzeit von Berechnungen
dramatisch. Für die Analyse der Daten sind darüber hinaus effiziente
Programme notwendig. „Wir sind hier auf massive Parallelität angewiesen“, betont
Günther Specht. „Diese enormen Datenmengen können nur in einer Rechnerwolke –
einer sogenannten Cloud – sinnvoll verarbeitet werden.“ Dazu steht am Institut
für Informatik ein Rechner-Cluster im Sinne einer riesigen Anzahl von
verbundenen Einzelrechnern zur Verfügung. Durch eine Forschungsförderung hat
sich den Informatikern zusätzlich die Chance geboten, ihre Lösungen auch auf
kommerziellen Cloud-Anbietern wie Amazon auszuführen, die den Zugang zu
verteilten Rechnersystemen für Wissenschaftler weltweit erleichtern. Das Ziel
des Innsbrucker Forscherteams ist es, eine Plattform zu erschaffen, die es
Wissenschaftlern erlaubt, ihre eigenen Programme auf einem Cluster auszuführen,
den Transfer von riesigen Datenmengen zu ermöglichen und die Reproduzierbarkeit
von Ergebnissen zu gewährleisten.
Besonderes Augenmerk stellt hierbei die einfache
Bedienbarkeit der Plattform und somit die Verwendbarkeit der integrierten Programme
für Wissenschaftler dar. „Das ist entscheidend, um eine gute Akzeptanz bei den
Nutzerinnen und Nutzern im Bereich der Genetik zu erreichen“, unterstreicht
Sebastian Schönherr die Notwendigkeit dieses Projektes.
„Wir stellen somit eine Plattform frei zugänglich zur
Verfügung, die auch von anderen Wissenschaftlern verwendet werden kann“, so
Günther Specht. Aus aller Welt greifen Forscherinnen und Forscher regelmäßig
auf zahlreiche der Innsbrucker Open-Source-Produkte zu, in denen bereits
Anwendungen mehrerer Forschungsgruppen integriert wurden.
Mit ihrer Software versuchen die Forscher der beiden
Innsbrucker Universitäten in diesem rasant wachsenden Forschungsfeld einen
Standard zu etablieren. „Die Reproduzierbarkeit von Ergebnissen war früher
nicht immer gewährleistet oder nur mit sehr großem Aufwand möglich“, sagt Prof.
Specht.
Wo kommen wir her?
Die genetischen Informationen des Menschen geben aber
nicht nur Aufschluss über mögliche Krankheitsrisiken, sondern lassen auch
Rückschlüsse auf die Evolution der Menschheit zu. Kommen unsere Vorfahren
wirklich aus Afrika? Und wie haben sich die Menschen auf der Welt ausgebreitet?
Um diese Fragen zu klären, wird die Erbinformation aus den Energiekraftwerken
der menschlichen Zelle – den Mitochondrien – entziffert. Dieses Erbgut wird nur über die Mutter an den Nachwuchs weitergegeben und erlaubt daher die
Rückverfolgung der Menschheit auf ihre Ursprünge vor tausenden von Jahren.
Auch für dieses Problem haben die Informatiker um
Günther Specht in Zusammenarbeit mit Anita Kloss-Brandstätter eine Software
entwickelt, die eine automatische Zuordnung von Personen zu sogenannten
Haplogruppen erlaubt. Diese Gruppen geben Auskunft über das verwandtschaftliche
Verhältnis von Menschen. Die Arbeit wird von Forschern weltweit verwendet und
erleichtert das Bestimmen der Haplogruppe von der mitochondrialen DNA um ein
Vielfaches. „Bisher verglich man das mitochondriale Erbgut mit einer
Referenzperson manuell“, erzählt Hansi Weißensteiner. „Nun haben wir diese
aufwendige Feinarbeit automatisiert, was von der internationalen Forschergemeinde
sehr gut angenommen wird.“ So findet die Software starken Anklang im Bereich
der klinischen Genetik, um Krankheitsrisiken von Mutationen festzustellen, in
der Populationsgenetik, die versucht Entwicklungsmuster des Menschen zu
entdecken sowie in der Gerichtsmedizin zur Identifikation von Personen.
Dieser Beitrag erscheint in der neuen Ausgabe des Forschungsmagazins „zukunft forschung“ der Universität Innsbruck, das Sie hier ansehen können: zukunft forschung 01/12.