Банки нуклеотидных последовательностей
Описание секвенированной на ББС последовательности
Все описанные на ББС и загруженные в основные базы данных последовательности, а точнее, все последовательности, имеющие внутри своего описания соответствующие слова (а слова эти весьма специфичны - вряд ли в выдачу попало что-то лишнее) были найдены в базе данных NCBI в банке "Nucleotide" по запросу: Nikolai Pertsov White Sea Biological Station . В выдаче оказалось всего несколько (4) записей - возможно, поиск стоит сократить до просто "White Sea Biological Station", но зато в этом варианте больше конкретики. Например, по запросу WSBS были выданы аж 237 записей, но за точность их принадлежности ББС я ручаться не могу.
Из полученного списка я выбрал одну из записей, она достаточно короткая чтобы не быть полным геномом и явно не является отдельным контигом. Более того, в графе "sourse - country" вполне однозначно указано полное название ББС, что гарантирует правильность выбора записи. Ниже, в таблице 1, приведены данные о ней.
Идентификатор записи | LT560382 |
---|---|
Тип НК | ДНК |
Длина последовательности | 671 п.о. |
Дата депонирования в банк | 7 марта 2017 |
Авторы записи | Marfenina,O.E. и Danilogorskaya,A.A. |
Последовательность | fasta-файл |
Название гена | 5.8S рРНК |
Название организма | Eutypa sp. |
Штамм | VKM F-4705 |
Организм выделен из | Почва (histic leptosol), горизонт 0 |
Судя по записям, секвенирование было проведено в рамках исследования микрофунгальных сообществ естественных и городских бореальных почв с акцентом на потенциально патогенные виды. Тут стоит отметить, что как минимум два вида из рода Eutypa - Eutypa dieback и Eutypa lata - являются возбудителя характерной для них болезни - эутипиоза, наиболее часто этот недуг поражает виноград, что делает изучение рода довольно важной задачей.
Отсеквенированный ген же кодирует 5.8S рибосомную РНК. Эта РНК входит в большую субъединицу эукариотической рибосомы, из-за чего имеет важную роль в процессе трансляции - считается, что 5.8S участвует в транслокации рибосом. Предположу, что этот ген, как и все гены рРНК, является весьма консервативным - это подтверждает и высокий счет выравнивания данной последовательности с достаточно далекими родственниками в BLAST, а значит по этому участку ДНК можно довольно точно определять таксон, для чего, скорее всего, секвенирование и было проведено в данном исследовании.
Оценка качества сборки генома Hypsibius dujardini
Результатом запроса Hypsibius dujardini стали всего лишь три сборки, из которых я выброал самую свежую ввиду одного "уровня" (scaffold). В таблице 2 представлены даннные об этой сборке, а ниже - описание организма.
Hypsibius dujardini - один из видов из класса настоящих тихоходок. Этот вид является космополитом, очень хорошо переносит экстремальные условия окружающей среды: температуру от почти абсолютного нуля до более чем 100°С, почти полное обезвоживание, мощное рентгеновское излучение за счет образования жизненной стадии эндоспоры со снижением метаболизма.
Забавно, что страница описываемого генома была в выдаче Яндекса по видовому названию организма третьим пунктом - сразу после русско- и англоязычной версий Википедии. :)
Название | Hypsibius dujardini strain:Z151 |
---|---|
GenBank AC | GCA_002082055.1 |
Уровень сборки | Scaffold |
Общая длина | 104,154,999 по |
Число контигов | 3060 |
N50 контигов | 76809 |
L50 контигов | 373 |
Число скэффолдов | 1421 |
N50 скэффолдов | 342180 |
L50 скэффолдов | 85 |
Число аннотированных белков | 20853 |
Число генов тРНК | 140 |
Число генов рРНК | 3 |
Покрытие генома | 113х |
Один из контигов | fasta |
Запись WGS была найдена на странице проекта, которая была указзана на странице сборки.
Получение нужного списка полных геномов
Для нахождения нужного таксона был найден (даже с некоторым трудом:)) АС полипротеина K9N7C7, в поиске NCBI по нему была найдена страница гена, из которой я и вышел на таксон, а затем, поднявшись по списку таксономии в NCBI Genome, я перешел к таксону "Middle East respiratory syndrome-related coronavirus", по которому и провел поиск в NCBI Virus. В выдаче оказались 530 полных геномов, два - в RefSeq. Таблицу полных геномов можно скачать тут. Добавил в таблицу публикации и авторов.
Скачивание последовательности CDS
Из всех этих геномов я выбрал самый свежий, входящий в RefSeq - NC_038294. Некоторые сведения о нем приведены в таблице 3:
АС записи | NC_038294 |
---|---|
Название вида | Betacoronavirus England 1 |
TaxID вида | 1263720 |
Тип генома | линейная РНК |
Хозяин вируса | Homo sapiens |
Последовательность РНКК вируса, предщположительно кодирующая белки, была скачана по нажатию "send to file" → "coding sequences" в формате fasta и находится тут.