Банки нуклеотидных последовательностей


Поиск последовательностей с Беломорской биологической станции

Беломорская биологическая станция МГУ расположена расположена на Карельском берегу Кандалакшского залива Белого моря. В этом задании нужно было найти и рассмотреть запись, которая была внесена коллегами в базу данных GenBank. Для того, чтобы найти последовательность, был введён запрос:
White AND Sea AND Kandalaksha AND Bay
Всего было выдано 685 записей. Выбранная последовательность в формате fasta тут.

Рис. 1. Chaetoceros sp.
Это последовательность RNA длиной 384 b.p. из некультивируемой водоросли рода Chaetoceros. Это крупнейший род морских планктонных диатомовых водорослей (Ochrophyta). Они имеют выросты в виде рожек, чтобы лучше парить в воде. Запись имеет идентификатор MN541095.1 и была депонирована в банк 23.03.2020 авторами Belevich T.A., Ilyash L.V., Milyutina I.A., Logacheva M.D. и Troitsky A.V. Хорошим подтверждением того, что образец получен на ББС является название статьи - "Photosynthetic Picoeukaryotes Diversity in the Underlying Ice Waters of the White Sea". К тому же, работа выполнена сотрудниками биологического факультета МГУ. Сама последовательность является неуточненной рибосомальной RNA малой субъединицы. Из-за консервативности последовательности, рибосомальные RNA часто используются для выяснения эволюционных взаимоотношений. Последовательность была отсеквенирована с помощью Illumina.

Качество сборки генома эукариотического организма

В этом задании я решил схитрить и выбрал не совсем многоклеточный организм - слизевика. Он живёт на разлагаемом субстрате, и когда он заканчивается, амёбные клетки выделяют циклический АМФ (сигнал голода), после чего собираются в надклеточный агрегат (нечто вроде гриба с ножкой), где происходит половое размножение и образование спор. Чтобы найти геном диктиостелиума (Dictyostelium discoideum), в базе Genome в GenBank была введена команда dictyostelium discoideum[Organism]. Всего была найдена одна сборка.

Рис. 2. Жизненный цикл Dictyostelium discoideum

Таблица 1. Данные о сборке

Название (assembly name) Dictyostelium discoideum AX4, whole genome shotgun sequencing project
AC сборки из RefSeq GCF_000004695.1
Уровень сборки (assembly level) Chromosome
Общая длина последовательности 34 204 973
Число контигов 261
N50 для контигов 341 816
L50 для контигов 20
Число скэффолдов 41
N50 для скэффолдов 5 450 249
L50 для скэффолдов 3
Число аннотированных белков 12 500 (из публикации), 13267 (из BioProject)
Также нужно было вытащить последовательность какого-нибудь контига. Я решил взять один из самых длинных контигов (2 520 577 b.p., кодирует 980 белков). Для этого я перешёл на WGS профиль сборки и выбрал там WGS контигов. Затем я выбрал следующий контиг и выгрузил его в fasta формате.

Список полных геномов таксона коронавирусов

В этом задании нужно было получить список полных геномов таксона коронавирусов, содержащего штамм, геном которого изучали в прошлом семестре (см. работу 4 II семестра). Из записи Uniprot был выяснен id таксона, который был использован для поискового запроса в NCBI Virus: 694009. В выдаче мы оставили колонки: Accession, Release_Date, Species, Length, Nuc_Completeness (по ней отсортировали), Geo_Location, Host. Полученную таблицу можно посмотреть в формате csv. Всего нашлось 30350 геномов. Это мы выяснили с помощью:
wc -l sequences.csv
Число собранных геномов можно посчитать с помощью:
grep 'complete' sequences.csv | wc -l
Их 19185. Таблицу только с полными геномами мы получили так:
head -n 19186 sequences.csv > complete_sequences.csv
Из них всего два относятся к RefSeq: NC_045512, NC_004718

CDS последовательности коронавируса

В этом задании нужно было для того же вируса (в моём случае это SARS 2003 года) получить файл с участками генома, предположительно кодирующими белки (CDS).

Таблица 2. Данные о вирусе

AC нуклеотидной записи NC_004718.3
Латинское название вида Severe acute respiratory syndrome-related coronavirus Tor2
TaxID вида 227984
Тип генома "+"-одноцепочечный-RNA-геном
Хозяина вируса Homo sapiens

Чтобы получить файл, выбрали Send to -> Coding sequences -> FASTA nucleotide. Посмотреть файл можно тут.