Платформы с длинным считыванием, позволяющие секвенировать молекулы РНК длиной более 10 000 оснований из конца в конец, имеют большой потенциал для использования при определении вариаций транскриптома. Однако, несмотря на то, что эти технологии не требуют разбиения молекул РНК перед секвенированием, они имеют гораздо более высокий процент ошибок на одно основание — обычно от 5% до 20%, чем технологии короткого прочтения. Это ограничение существенно сдерживает широкое распространение секвенирования РНК с длинным прочтением. В частности, высокая частота ошибок затрудняет определение достоверности новых, ранее неизвестных молекул РНК, обнаруженных при определенном заболевании.
Исследователи из Детской больницы Филадельфии (CHOP) разработали вычислительный инструмент ESPRESSO (Error Statistics PRomoted Evaluator of Splice Site Options), который позволяет более точно обнаруживать и количественно оценивать молекулы РНК на основе подверженных ошибкам данных секвенирования РНК с длинным прочтением, не опираясь на данные секвенирования РНК с коротким прочтением. По их мнению, новый инструмент может позволить улучшить диагностику редких генетических заболеваний, вызванных нарушениями в работе РНК, и обнаружить потенциальные терапевтические мишени при таких заболеваниях, как рак.
«ESPRESSO решает давнюю проблему секвенирования РНК с длинным прочтением и открывает новые возможности для открытий», — сказал И Синь (Yi Xing), доктор философии, директор Центра вычислительной и геномной медицины CHOP и старший автор исследования, опубликованного группой в журнале Science Advances. «Мы предполагаем, что ESPRESSO станет полезным инструментом для исследователей, позволяющим изучать РНК-репертуар клеток в различных биомедицинских и клинических ситуациях».
Разработка ESPRESSO и ее оценка описаны в статье «ESPRESSO: надежное обнаружение и количественная оценка изоформ транскриптов на основе данных РНК-секвенирования с ошибками», в которой сделан вывод: «ESPRESSO и сопутствующий ей набор данных представляют собой полезный ресурс для изучения РНК-репертуара эукариотических транскриптомов».
На пути от гена к белку зарождающаяся молекула РНК может быть разрезана и соединена, или сплайсирована, различными способами, что приводит к образованию различных изоформ РНК, прежде чем она будет транслирована в белок. Этот процесс, известный как альтернативный сплайсинг, позволяет одному гену кодировать несколько различных белков. Альтернативный сплайсинг происходит во многих биологических процессах, например, при созревании стволовых клеток в тканеспецифичные клетки. Однако в условиях заболевания альтернативный сплайсинг может быть нарушен. Поэтому для выяснения причины заболевания важно исследовать транскриптом, т.е. все молекулы РНК, которые могут происходить от генов. «Переключения между изоформами транскрипта и лежащие в их основе события процессинга РНК происходят во многих биологических процессах, таких как клеточная дифференцировка, и, как известно, нарушаются в контексте заболеваний человека, включая рак, — комментируют авторы. «Следовательно, важно изучать разнообразие транскриптома клеток не только на уровне генов, но и на уровне изоформ».
Однако исторически сложилось так, что молекулы РНК трудно прочитать целиком, поскольку их длина обычно составляет тысячи оснований. Вместо этого исследователи прибегают к так называемому секвенированию РНК с коротким прочтением, при котором молекулы РНК разбиваются на гораздо более короткие фрагменты — от 200 до 600 оснований, в зависимости от платформы и протокола. Затем с помощью компьютерных программ восстанавливаются полные последовательности молекул РНК. «…Секвенирование РНК с коротким прочтением (RNA-seq) стало широко применяться для профилирования транскриптомов эукариот, разработаны и оптимизированы многочисленные инструменты для анализа данных RNA-seq с коротким прочтением, — продолжает команда.
Секвенирование РНК с коротким прочтением позволяет получать высокоточные данные, с низким уровнем ошибок на одно основание — около 0,1% (то есть одно основание определяется неверно на каждую 1000 секвенированных оснований). Тем не менее, оно ограничено по объему информации, которую может предоставить, из-за короткой длины секвенирующих чтений. Во многих отношениях секвенирование РНК с короткими считываниями напоминает разбиение большой картины на множество одинаковых по форме и размеру кусочков лобзика, которые затем пытаются собрать воедино. Как отмечают исследователи в своей статье, «…несмотря на высокое качество и пропускную способность секвенирования, РНК-секвенирование с коротким прочтением по своей сути ограничено в возможности обнаружения и количественного определения изоформ транскриптов, поскольку ограниченная длина прочтения часто не может охватить более одного сплайс-перехода (SJ), не говоря уже о полноразмерных транскриптах».
В последнее время стали доступны платформы с «длинным считыванием», которые позволяют проводить последовательность молекул РНК длиной более 10 000 оснований из конца в конец. «…Быстро развивающиеся технологии одномолекулярного РНК-секвенирования с длинным считыванием способны генерировать считывания длиной более 10 кб, которые могут охватывать весь объем почти всех эукариотических транскриптов, и поэтому они стали потенциально мощным решением для анализа вариаций транскриптома на уровне изоформ», — отмечают ученые. Но хотя такие платформы не требуют разбиения молекул РНК перед секвенированием, они имеют гораздо более высокий процент ошибок на одно основание, обычно составляющий от 5% до 20%. Это известное ограничение сильно мешает широкому распространению секвенирования РНК с длинным прочтением. В частности, высокая частота ошибок затрудняет определение достоверности новых, ранее неизвестных молекул РНК, обнаруженных при том или ином заболевании.
«Секвенирование РНК с длинным прочтением — это мощная технология, которая позволит нам обнаружить вариации РНК при редких генетических заболеваниях и других состояниях, таких как рак», — говорит Синь. «Вероятно, мы находимся в точке перегиба в том, как мы обнаруживаем и анализируем молекулы РНК. Переход от секвенирования РНК с коротким прочтением к секвенированию с длинным прочтением представляет собой захватывающую технологическую трансформацию, и срочно необходимы вычислительные инструменты, надежно интерпретирующие данные секвенирования РНК с длинным прочтением». Авторы продолжают: «Учитывая все более широкое внедрение технологий РНК-секвенирования с длинным прочтением и быстрое накопление данных РНК-секвенирования с ошибками в открытых хранилищах, существует острая необходимость в разработке надежных вычислительных инструментов для обнаружения и количественной оценки изоформ транскриптов только на основе данных РНК-секвенирования с ошибками».
Разработанный группой CHOP инструмент ESPRESSO позволяет с высокой точностью обнаруживать и количественно определять изоформы РНК, используя только данные секвенирования длинных считываний РНК, подверженные ошибкам. Для этого вычислительный инструмент сравнивает все длинные чтения секвенирования РНК данного гена с соответствующей геномной ДНК, а затем использует паттерны ошибок отдельных длинных чтений для уверенного определения сплайс-переходов — мест разрезания и соединения зарождающейся молекулы РНК, а также соответствующих им полноразмерных изоформ РНК.
Находя области идеального совпадения между считываниями длинной РНК и геномной ДНК, а также заимствуя информацию по всем считываниям длинной РНК гена, инструмент позволяет с высокой степенью достоверности идентифицировать сплайс-переходы и изоформы РНК, в том числе и те, которые ранее не были зарегистрированы в существующих базах данных. «Таким образом, ESPRESSO совместно рассматривает выравнивания всех длинных чтений, выровненных по гену, и использует профили ошибок отдельных чтений для улучшения идентификации SJ и количественного определения изоформ транскрипта», — пояснили ученые. «Основная инновация ESPRESSO заключается в способности исправлять предполагаемые СЯ, найденные в отдельных длинных чтениях, заимствуя информацию из других длинных чтений, выровненных по тому же геномному региону».
Для оценки эффективности ESPRESSO использовались симуляционные данные и данные по реальным биологическим образцам. Было установлено, что ESPRESSO превосходит многие существующие на сегодняшний день инструменты как в плане обнаружения изоформ РНК, так и в плане их количественного определения. Исследователи также сгенерировали и проанализировали более миллиарда длинных чтений секвенирования РНК, охватывающих 30 типов тканей человека и три линии клеток человека, что позволило получить полезный ресурс для изучения вариаций транскриптома человека с разрешением полноразмерных изоформ РНК.
«Учитывая все более широкое применение РНК-секвенирования с длинными считываниями в биомедицинских исследованиях, мы полагаем, что ESPRESSO станет полезным инструментом для изучения репертуара РНК эукариотических клеток в различных условиях», — заключили авторы.