Sprache auswählen

German

Down Icon

Land auswählen

Poland

Down Icon

Polnisches Tool zur Organisation des Virenchaos

Polnisches Tool zur Organisation des Virenchaos

Polnische Forscher haben ein Computerprogramm namens Vclust entwickelt, mit dem sie Millionen von Virussequenzen vergleichen und innerhalb weniger Stunden nach Ähnlichkeit sortieren können. Die Analyse riesiger genetischer Datensätze mit herkömmlichen Methoden würde Jahre dauern.

„Mit Vclust dauert die Analyse eines Satzes von 15 Millionen Sequenzen etwa vier Stunden, während die bisher verwendeten genauesten Tools etwa vier Jahre benötigen würden. Dies ist ein wichtiger Schritt für die Entwicklung der Virologie und Metagenomik, da es die Identifizierung und Klassifizierung neuer Viren erleichtern wird, die in den letzten Jahren dank moderner Sequenzierungstechnologien massenhaft entdeckt wurden“, betonten die Entwickler der Lösung in einem Interview mit PAP.

In der Zeitschrift Nature Methods beschrieb ein Team von Wissenschaftlern der Fakultät für Biologie der Adam-Mickiewicz-Universität in Posen und der Fakultät für Automatisierungstechnik, Elektronik und Informatik der Schlesischen Technischen Universität in Zusammenarbeit mit einem Spezialisten der Friedrich-Schiller-Universität in Jena ein Tool, mit dem sich bekannte Viren von neuen unterscheiden und ihre Diversität in unterschiedlichen Umgebungen analysieren lässt, was für die Überwachung neuer Krankheitserreger und die Erforschung des Mikrobioms von entscheidender Bedeutung ist.

Die Forscher erklärten, dass die moderne Mikrobiologie mit einer Flut an Daten zu kämpfen habe. Jährlich würden bis zu einer Million neue Viren entdeckt, was zu so großen Sammlungen führe, dass deren Analyse und Klassifizierung für die Forscherteams zu einer immer größeren Herausforderung werde.

„Diese explosionsartige Zunahme der Daten ist auf die Metagenomik zurückzuführen, eine Methode, die es ermöglicht, die gesamte in einer bestimmten Umweltprobe vorhandene DNA zu lesen, z. B. aus dem Meer, dem Boden oder dem menschlichen Darm. Bisher fehlten Werkzeuge, die eine effektive Analyse und Gruppierung einer so großen Anzahl von Sequenzen ermöglichten. Es gab zwar sehr genaue Methoden, aber sie konnten ein solches Datenvolumen nicht verarbeiten. Deshalb beschlossen wir, ein Programm zu entwickeln, das ebenso präzise, ​​aber viel effizienter ist und Millionen von Genomen gleichzeitig verarbeiten kann“, erklärte der Co-Autor der Veröffentlichung, Dr. Andrzej Zieleziński von der Adam-Mickiewicz-Universität.

Warum sind Viren so schwierig?

Wie er hinzufügte, basiert die Klassifizierung von Organismen – die Taxonomie – in der Biologie üblicherweise auf dem Vergleich spezifischer Gene, die in allen Vertretern einer bestimmten Gruppe vorhanden sind. Dadurch ist es möglich, phylogenetische Bäume von Organismen zu erstellen, sie zu gruppieren, Familien oder Arten zu unterscheiden und ihren Verwandtschaftsgrad zu bestimmen. Bei Viren ist das völlig anders.

„Viren haben im Gegensatz zu Bakterien beispielsweise kein einziges gemeinsames Gen, das verglichen werden könnte. Sie unterscheiden sich zu stark voneinander. Deshalb funktionieren klassische phylogenetische Methoden nicht. Auch der Ansatz, der auf ihrer Morphologie, z. B. der Form der Kapside, basiert, funktionierte nicht, da er sich als zu langsam und nicht sehr skalierbar erwies. Uns bleibt also nur eines: der Vergleich der Sequenzen ganzer Genome, Buchstabe für Buchstabe“, erklärt Dr. Hab. Zieleziński.

Dies ist schwierig, wenn Millionen solcher Genome existieren. Wie Projektleiter Prof. Sebastian Deorowicz von der Schlesischen Technischen Universität erklärte, gibt es zwar bereits Werkzeuge, die die Gruppierung dieser riesigen Datensätze ermöglichen, allerdings mit einem enormen Rechenaufwand, der im Forschungsalltag nur schwer reproduzierbar ist. „Es ist nicht so, dass es noch niemand zuvor getan hätte, aber es erforderte so große Ressourcen (z. B. Supercomputer), dass es schwierig wäre, diesen Prozess regelmäßig zu wiederholen, insbesondere wenn wir es mit immer größeren Datensätzen zu tun haben“, bemerkte er.

„Deshalb haben wir uns auf die Optimierung konzentriert, d. h. auf die Entwicklung möglichst effektiver Algorithmen und des effizientesten Codes, wodurch wir die Rechenzeit um mehrere Größenordnungen reduzieren konnten. Und das alles, um die Berechnungen von einem Supercomputer auf eine gewöhnliche Workstation zu übertragen“, fügte er hinzu.

Drei Schritte zum Organisieren von Viren

Vclust arbeitet in drei Schritten. Der erste Schritt ist ein Vorfilter, in dem das Programm schnell Sequenzpaare identifiziert, die auch nur minimale Ähnlichkeiten aufweisen. Anstatt jede Sequenz mit jeder anderen zu vergleichen – was Billionen möglicher Kombinationen bedeuten würde – beschränkt der Algorithmus die Analyse auf eine deutlich kleinere Zahl, etwa Hunderte Millionen der vielversprechendsten Paare.

Der zweite Schritt ist ein präziser Vergleich ausgewählter Sequenzen. Dabei kommt der proprietäre LZ-ANI-Algorithmus zum Einsatz, der auf Techniken basiert, die von den in ZIP- oder RAR-Formaten verwendeten Datenkomprimierungsalgorithmen inspiriert sind. Sein Funktionsprinzip ist einfach: Je ähnlicher sich zwei Sequenzen sind, desto besser lassen sie sich zusammen „komprimieren“, d. h. sie benötigen nach der Verarbeitung weniger Speicherplatz. Dieser Effekt wird als Maß für die Ähnlichkeit verwendet.

Der letzte Schritt umfasst das Clustering, also die Gruppierung von Sequenzen anhand ihrer Ähnlichkeit. Viren, deren Genome einander am ähnlichsten sind, werden in dieselbe Gruppe eingeordnet. Dadurch lässt sich leichter bestimmen, welche von ihnen verwandt sind und „Familien“ bilden, und welche völlig getrennt sind. Dies ermöglicht ein besseres Verständnis der Vielfalt von Viren und ihrer evolutionären Zusammenhänge.

„Dadurch nutzt das Programm die Leistung des Computers maximal aus. Alle, die Vclust getestet haben, waren von seiner Geschwindigkeit begeistert“, betonte Dr. Hab. Zieleziński.

Die Entwickler von Vclust haben dafür gesorgt, dass das Tool völlig kostenlos und öffentlich verfügbar ist. Sie können es aus dem Internet herunterladen und auf Ihrem Computer ausführen. Für diejenigen ohne fortgeschrittene Ausrüstung gibt es eine Browserversion: vclust.org.

Das Tool funktioniert ganz einfach: Der Nutzer kann eigene Sequenzen einfügen, die Analyse ausführen und erhält nach kurzer Zeit das Ergebnis – ohne Anmeldung oder Registrierung. Die Browserversion ermöglicht derzeit die Analyse von bis zu tausend Sequenzen gleichzeitig, was in vielen Fällen völlig ausreichend ist.

Prof. Deorowicz und Dr. Hab. Zieleziński versichern, dass das Projekt weiterentwickelt wird. „Wir planen, weitere Funktionen hinzuzufügen und möchten Vclust in Zukunft auch um die Möglichkeit zur Analyse bakterieller Genome erweitern“, kündigten sie an.

Wissenschaft in Polen, Katarzyna Czechowicz (PAP)

kap/ agt/ amac/

naukawpolsce.pl

naukawpolsce.pl

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow