Банки нуклеотидных последовательностей

Описание секвенированной на ББС последовательности

Все описанные на ББС и загруженные в основные базы данных последовательности, а точнее, все последовательности, имеющие внутри своего описания соответствующие слова (а слова эти весьма специфичны - вряд ли в выдачу попало что-то лишнее) были найдены в базе данных NCBI в банке "Nucleotide" по запросу: Nikolai Pertsov White Sea Biological Station . В выдаче оказалось всего несколько (4) записей - возможно, поиск стоит сократить до просто "White Sea Biological Station", но зато в этом варианте больше конкретики. Например, по запросу WSBS были выданы аж 237 записей, но за точность их принадлежности ББС я ручаться не могу.

Из полученного списка я выбрал одну из записей, она достаточно короткая чтобы не быть полным геномом и явно не является отдельным контигом. Более того, в графе "sourse - country" вполне однозначно указано полное название ББС, что гарантирует правильность выбора записи. Ниже, в таблице 1, приведены данные о ней.

Таблица 1. Данные о найденной записи
Идентификатор записи LT560382
Тип НК ДНК
Длина последовательности 671 п.о.
Дата депонирования в банк 7 марта 2017
Авторы записи Marfenina,O.E. и Danilogorskaya,A.A.
Последовательность fasta-файл
Название гена 5.8S рРНК
Название организма Eutypa sp.
Штамм VKM F-4705
Организм выделен из Почва (histic leptosol), горизонт 0

Судя по записям, секвенирование было проведено в рамках исследования микрофунгальных сообществ естественных и городских бореальных почв с акцентом на потенциально патогенные виды. Тут стоит отметить, что как минимум два вида из рода Eutypa - Eutypa dieback и Eutypa lata - являются возбудителя характерной для них болезни - эутипиоза, наиболее часто этот недуг поражает виноград, что делает изучение рода довольно важной задачей.

Рисунок 1. Пораженные Эуфитой листья. Источник

Рисунок 2. Инкубированная Эуфита. Источник

Отсеквенированный ген же кодирует 5.8S рибосомную РНК. Эта РНК входит в большую субъединицу эукариотической рибосомы, из-за чего имеет важную роль в процессе трансляции - считается, что 5.8S участвует в транслокации рибосом. Предположу, что этот ген, как и все гены рРНК, является весьма консервативным - это подтверждает и высокий счет выравнивания данной последовательности с достаточно далекими родственниками в BLAST, а значит по этому участку ДНК можно довольно точно определять таксон, для чего, скорее всего, секвенирование и было проведено в данном исследовании.

Оценка качества сборки генома Hypsibius dujardini

Результатом запроса Hypsibius dujardini стали всего лишь три сборки, из которых я выброал самую свежую ввиду одного "уровня" (scaffold). В таблице 2 представлены даннные об этой сборке, а ниже - описание организма.

Hypsibius dujardini - один из видов из класса настоящих тихоходок. Этот вид является космополитом, очень хорошо переносит экстремальные условия окружающей среды: температуру от почти абсолютного нуля до более чем 100°С, почти полное обезвоживание, мощное рентгеновское излучение за счет образования жизненной стадии эндоспоры со снижением метаболизма.

Рисунок 3. Hypsibius dujardini. Источник

Забавно, что страница описываемого генома была в выдаче Яндекса по видовому названию организма третьим пунктом - сразу после русско- и англоязычной версий Википедии. :)

Таблица 2. Данные о найденной сборке
Название Hypsibius dujardini strain:Z151
GenBank AC GCA_002082055.1
Уровень сборки Scaffold
Общая длина 104,154,999 по
Число контигов 3060
N50 контигов 76809
L50 контигов 373
Число скэффолдов 1421
N50 скэффолдов 342180
L50 скэффолдов 85
Число аннотированных белков 20853
Число генов тРНК 140
Число генов рРНК 3
Покрытие генома 113х
Один из контигов fasta

Запись WGS была найдена на странице проекта, которая была указзана на странице сборки.

Получение нужного списка полных геномов

Для нахождения нужного таксона был найден (даже с некоторым трудом:)) АС полипротеина K9N7C7, в поиске NCBI по нему была найдена страница гена, из которой я и вышел на таксон, а затем, поднявшись по списку таксономии в NCBI Genome, я перешел к таксону "Middle East respiratory syndrome-related coronavirus", по которому и провел поиск в NCBI Virus. В выдаче оказались 530 полных геномов, два - в RefSeq. Таблицу полных геномов можно скачать тут. Добавил в таблицу публикации и авторов.

Скачивание последовательности CDS

Из всех этих геномов я выбрал самый свежий, входящий в RefSeq - NC_038294. Некоторые сведения о нем приведены в таблице 3:

Таблица 3. Данные о найденной записи
АС записи NC_038294
Название вида Betacoronavirus England 1
TaxID вида 1263720
Тип генома линейная РНК
Хозяин вируса Homo sapiens

Последовательность РНКК вируса, предщположительно кодирующая белки, была скачана по нажатию "send to file" → "coding sequences" в формате fasta и находится тут.