Биоинформатики СПбГУ создали новый сборщик для чтения геномов микробных сообществ
Сотрудники лаборатории «Центр алгоритмической биотехнологии» СПбГУ в составе группы российских и американских ученых разработали сборщик metaFlye, специализирующийся на сборке образцов ДНК микробных сообществ. С его помощью можно решить широкий круг фундаментальных и прикладных задач, среди которых — контроль процесса лечения человека и даже создание новых лекарств. Статья о сборщике опубликована в престижном научном журнале Nature Methods.
Сегодня для изучения ДНК любого живого организма ученые всего мира используют сложные биотехнологические инструменты — секвенаторы. Эти специальные машины не умеют «прочитывать» геном от начала и до конца (как люди читают книги). Они делают это отдельными короткими фрагментами — прочтениями, или ридами (от английского слова read). Объединение прочтений в более длинные фрагменты, а в идеальном случае — в единую последовательность исходного генома, представляет собой крайне сложную вычислительную задачу, чем-то напоминающую сборку пазла из миллионов фрагментов. Задача осложняется тем, что геномы часто содержат большое количество одинаковых повторяющихся последовательностей, которые нередко превышают длину прочтений. Справиться с этой непростой задачей помогают специализированные программы — геномные сборщики.Ученым доступно несколько десятков различных сборщиков, которые разрабатывают в ведущих биоинформатических лабораториях по всему миру. Такое многообразие обусловлено тем, что лежащие в основе сборщиков алгоритмы нужно адаптировать к разным типам входных данных, получаемых на разных видах секвенаторов, а также к различным организмам. Например, подходы для сборки генома бактерий могут совершенно не подойти сборке генома человека и наоборот. Кроме того, разработчики геномных сборщиков постоянно стремятся улучшить свои решения, чтобы их программы работали быстрее, использовали меньше памяти, а итоговые сборки были длиннее и точнее, чем у конкурентов.
Новый сборщик metaFlye используется при сборке метагеномов, то есть образцов ДНК микробных сообществ, полученных из различных сред, — например, из глубин океана, почвы в парке или кишечника человека. Получая сборку такого образца, можно определить, что за организмы в нем представлены и сколько их. Используя дополнительный анализ сборки, часто можно выяснить, чем эти организмы могут питаться, как взаимодействуют, какие вещества синтезируют. Все эти сведения в дальнейшем можно использовать, например, для поиска новых лекарственных средств природного происхождения, для определения причин, лежащих в основе особой плодородности почвы, при проверке хода лечения человека и во множестве других как фундаментальных, так и прикладных задач.
Сборщик metaFlye предназначен для данных, получаемых по самой современной технологии секвенирования на данный момент — технологии секвенирования длинными прочтениями (long-read sequencing). Для данных метагеномного секвенирования короткими прочтениями (short-read sequencing, или next-generation sequencing, NGS) на платформе Illumina уже есть несколько сборщиков, используемых во всем мире. В их число входит сборщик metaSPAdes, разработанный в Центре алгоритмической биотехнологии СПбГУ в 2016 году. Также уже существуют программы для сборки отдельных геномов из длинных прочтений. Новый продукт metaFlye позволяет использовать преимущества новой технологии для сложных метагеномных данных. Это первый специализированный сборщик для метагеномов, работающий с технологиями Oxford Nanopore и PacBio.
«Стимулом к созданию metaFlye послужило отсутствие специализированного метагеномного сборщика для технологии длинных прочтений, — отмечает один из авторов проекта, старший научный сотрудник Центра алгоритмической биотехнологии СПбГУ Михаил Райко. — Эта технология уже кардинально изменила всю современную геномную науку, мы научились получать гораздо более полные сборки. Так, например, с ее помощью недавно были прочитаны и локализованы многие недостающие фрагменты генома человека (с использованием оригинального инструмента Flye и тоже с участием членов нашей лаборатории). Но для метагеномов такие данные только начали появляться, и, конечно, они потребовали специальных инструментов».
Работа над metaFlye началась примерно два года назад. Если же вести отсчет с создания его предшественника, геномного сборщика Flye, на базе которого и был реализован новый проект, получается вдвое больше — четыре года.
«В нашем исследовании, опубликованном в журнале Nature Methods, мы использовали metaFlye и другие сборщики, чтобы проанализировать несколько симулированных (то есть сгенерированных на компьютере, без секвенирования настоящей ДНК) и реальных метагеномных образцов из желудочно-кишечного тракта человека, коровы и овцы, — рассказывает другой автор сборщика, старший научный сотрудник Центра алгоритмической биотехнологии СПбГУ Алексей Гуревич. —Наибольший интерес, пожалуй, представляет образец микробиома овцы, так как он был впервые получен и исследован именно в этой работе, в то время как исходные данные секвенирования для двух других образцов взяты из работ сторонних авторов. Благодаря metaFlye в этом образце удалось собрать на порядок больше вирусных геномов и в полтора раза больше плазмид, чем при использовании лучших из существующих программ-аналогов».
Другим любопытным результатом стало то, что в образце удалось собрать геномы не только бактерий и архей, но и эукариот. При этом биоинформатический анализ показал, что почти половина эукариотических геномных фрагментов относится к представителям нематод, или круглых червей. Этот результат полностью соответствует отчету о вскрытии трупа животного, в котором были обнаружены признаки паразитарной инфекции.
«Сборщик metaFlye — это инструмент для решения широкого круга задач, который будет доступен всем исследователям, работающим с подобными данными. Из конкретных проектов, выполняемых в нашей лаборатории, мы применяем сборщик для изучения состава почвы черневой тайги — уникального биоценоза Западной Сибири с аномально высокой продуктивностью», — рассказывает Алексей Гуревич.
Публикация о metaFlye — результат коллаборации 11 российских и американских ученых, представляющих Санкт-Петербургский государственный университет, Калифорнийский университет в Сан-Диего (UCSD), Институт биоинформатики (Санкт-Петербург) и американские исследовательские центры молочных и мясных продуктов. Сам сборщик metaFlye в основном разрабатывается в UCSD. Его создатель и первый автор публикации — Михаил Колмогоров, постдок UCSD. Научный руководитель проекта — Павел Певзнер, профессор UCSD и главный научный консультант Центра алгоритмической биотехнологии СПбГУ.