Ученые открыли 130 тысяч новых вирусов
Пандемия, судя по последним событиям, близка к завершению, но для многих ученых она дала старт для новых исследований. Скажем, для программистов стало настоящим откровением, что в природе живут миллиарды разных вирусов, а на сегодня науке известно всего около 13 тысяч. Капля в океане! И любой может выпрыгнуть внезапно, как чертик из табакерки. Хорошо, если он будет как нынешний коронавирус уже известного вида, что позволило быстро создать вакцины. А если окажется абсолютный «мистер икс»? На поиск «вирусного океана» отправилась команда ученых из России, Франции, Канады, США и Германии.- Прежде всего надо было понять, где искать? — рассказывает ведущий научный сотрудник Центра биоинформатики и алгоритмической биотехнологии Санкт-Петербургского госуниверситета Антон Коробейников. — Был выбран вариант, который может показаться парадоксальным: для поиска неизвестных вирусов мы обратились к уже известным генетическим базам данных. Они собраны международным сообществом за последние 20 лет благодаря прорывным методам расшифровки геномов. Чтобы найти в этих гигантских банках новые вирусы, требовалось с помощью компьютера проанализировать десятки петабайт самых разных геномных последовательностей человека, животных, растений. (Один петабайт равен 10 в 15 степени байт.)
Выбрав поле для поиска, ученым требовалось ответить на второй вопрос: как искать? Какую сеть забрасывать, чтобы выловить в нем неизвестные инфекции? Традиционные средства явно не подходили. Дело в том, что обработка даже на суперкомпьютере такого огромного объема информации требует больших вычислительных затрат. Каждый новый вирус может оказаться "золотым". Ученые решили эту проблему.
— Мы придумали своего рода трюк, — говорит Коробейников. — Сейчас многие работают в так называемых вычислительных облаках. Там каждый может покупать машинное время и вести расчеты. В любой момент времени 20-30 процентов этих мощностей простаивает. И этот промежуток стоит очень дешево. Мы решили на этом сыграть и попасть в это дешевое окно. Конечно, есть риск, что в любую минуту вас потеснят те, кто заплатил. Но трюк в том и состоит, чтобы это никак не повлияло на конечный результат.
Если совсем просто, ученые делят большую задачу на мелкие и разбрасывают их по многим свободным в данный момент серверам в облаке. "Как только из-под тебя хотят выбить табуретку, тут же перебрасываем задачу на другой свободный сервер", — говорит Коробейников. А мастерство программистов в том, чтобы найти самый оптимальный вариант нарезки. Так стоимость сложнейших расчетов удалось снизить с нескольких миллионов долларов до тысяч.
Сам принцип поиска новых вирусов довольно очевиден. Зная геномы уже известных инфекций, компьютер ищет в базе похожие геномные последовательности. Так удалось обнаружить новые РНК-вирусы (в их число, например, входят и коронавирусы, и вирусы гриппа). Их оказалось 130 тысяч, то есть в 10 раз больше, чем было известно до начала исследования. А к концу десятилетия ученые намерны идентифицировать около 100 миллионов новых вирусов. Исследование опубликовано в журнале Nature.