Herramienta polaca para organizar el caos viral

Investigadores polacos han desarrollado un programa informático llamado Vclust que permite comparar millones de secuencias de virus y clasificarlas por similitud en tan solo unas horas. Analizar grandes conjuntos de datos genéticos con métodos tradicionales llevaría años.
Con Vclust, el análisis de un conjunto de 15 millones de secuencias tarda aproximadamente cuatro horas, mientras que las herramientas más precisas utilizadas hasta la fecha requerirían unos cuatro años. Este es un paso importante para el desarrollo de la virología y la metagenómica, ya que facilitará la identificación y clasificación de nuevos virus, que se han descubierto masivamente en los últimos años gracias a las modernas tecnologías de secuenciación, destacaron los creadores de la solución en una entrevista con PAP.
En la revista Nature Methods , un equipo de científicos de la Facultad de Biología de la Universidad Adam Mickiewicz de Poznań y de la Facultad de Control Automático, Electrónica y Ciencias de la Computación de la Universidad Tecnológica de Silesia, en cooperación con un especialista de la Universidad Friedrich Schiller de Jena, describió una herramienta que permite distinguir virus conocidos de los nuevos y analizar su diversidad en diferentes entornos, lo que es crucial para monitorear nuevos patógenos e investigar el microbioma.
Los investigadores explicaron que la microbiología moderna se enfrenta a una avalancha de datos. Cada año se descubren hasta un millón de nuevos virus, lo que resulta en colecciones tan grandes que su análisis y clasificación se convierten en un desafío cada vez mayor para los equipos de investigación.
Esta explosión de datos se debe a la metagenómica, un método que permite leer todo el ADN presente en una muestra ambiental dada, por ejemplo, del océano, el suelo o el intestino humano. Hasta ahora, faltaban herramientas que permitieran analizar y agrupar eficazmente un número tan grande de secuencias. Existían métodos muy precisos, pero no podían manejar tal escala de datos. Por eso decidimos crear un programa que fuera igual de preciso, pero mucho más eficiente, y que procesara millones de genomas a la vez», explicó el coautor de la publicación, el Dr. Andrzej Zieleziński, de la Universidad Adam Mickiewicz.
¿Por qué son tan difíciles los virus?Como añadió, en biología, la clasificación de organismos —o taxonomía— suele basarse en la comparación de genes específicos presentes en todos los representantes de un grupo determinado. Gracias a esto, es posible crear árboles filogenéticos de organismos, agruparlos, distinguir familias o especies y determinar su grado de parentesco. Con los virus, la situación es completamente diferente.
Los virus, a diferencia de las bacterias, por ejemplo, no comparten un solo gen común que permita compararlos. Difieren demasiado entre sí. Por eso, los métodos filogenéticos clásicos no funcionan. El enfoque basado en su morfología, por ejemplo, la forma de las cápsides, tampoco funcionó, ya que resultó ser demasiado lento y poco escalable. Así que solo nos queda comparar las secuencias de genomas completos, letra por letra, afirmó el Dr. Hab. Zieleziński.
Es difícil hacerlo cuando existen millones de genomas de este tipo. Como explicó el director del proyecto, el profesor Sebastian Deorowicz, de la Universidad Tecnológica de Silesia, ya existen herramientas que permiten agrupar estos enormes conjuntos de datos, pero lo hacen con un coste computacional enorme, difícil de replicar en las condiciones de investigación cotidianas. «No es que nadie lo haya hecho antes, sino que requería tantos recursos (por ejemplo, supercomputadoras) que sería difícil repetir este proceso con regularidad, especialmente cuando trabajamos con conjuntos de datos cada vez más grandes», señaló.
"Por eso nos centramos en la optimización, es decir, en diseñar los algoritmos más efectivos y el código más eficiente posible, lo que nos permitió reducir el tiempo de cálculo en varios órdenes de magnitud. Todo esto para transferir los cálculos de una supercomputadora a una estación de trabajo convencional", añadió.
Tres pasos para organizar los virusVclust funciona en tres etapas. La primera es un prefiltro, en el que el programa identifica rápidamente pares de secuencias con mínima similitud. En lugar de comparar cada secuencia con las demás —lo que implicaría billones de combinaciones posibles—, el algoritmo limita el análisis a un número mucho menor, del orden de cientos de millones de los pares más prometedores.
La segunda etapa consiste en una comparación precisa de secuencias seleccionadas. Se utiliza el algoritmo propietario LZ-ANI, basado en técnicas inspiradas en algoritmos de compresión de datos utilizados en formatos ZIP o RAR. Su principio de funcionamiento es simple: cuanto más similares sean dos secuencias, mejor se "comprimirán" juntas, es decir, ocuparán menos espacio después del procesamiento. Este efecto se utiliza como medida de similitud.
La última etapa consiste en la agrupación de secuencias según su similitud. Los virus cuyos genomas son más similares se agrupan en el mismo grupo. Esto facilita determinar cuáles están relacionados y forman "familias", y cuáles son completamente independientes. Esto permite una mejor comprensión de la diversidad de los virus y sus conexiones evolutivas.
Gracias a esto, el programa aprovecha al máximo la potencia del ordenador. Todos los que probaron Vclust quedaron maravillados con su velocidad, enfatizó el Dr. Hab. Zieleziński.
Los creadores de Vclust se aseguraron de que la herramienta fuera completamente gratuita y de acceso público. Puedes descargarla de internet y ejecutarla en tu ordenador. Para quienes no cuenten con un equipo avanzado, existe una versión para navegador: vclust.org.
La herramienta funciona de forma muy sencilla: el usuario puede pegar sus propias secuencias, ejecutar el análisis y, en poco tiempo, obtener el resultado, sin necesidad de iniciar sesión ni registrarse. Actualmente, la versión para navegador permite analizar hasta mil secuencias simultáneamente, lo que en muchos casos resulta más que suficiente.
El Prof. Deorowicz y el Dr. Hab. Zieleziński aseguran que el proyecto se desarrollará. «Planeamos añadir más funciones y, en el futuro, nos gustaría ampliar Vclust con la capacidad de analizar genomas bacterianos», anunciaron.
La ciencia en Polonia, Katarzyna Czechowicz (PAP)
kap/ agt/ amac/
naukawpolsce.pl