Банки нуклеотидных последовательностей

Это последовательность RNA длиной 384 b.p. из некультивируемой водоросли рода Chaetoceros. Это крупнейший род морских планктонных диатомовых водорослей (Ochrophyta). Они имеют выросты в виде рожек, чтобы лучше парить в воде. Запись имеет идентификатор MN541095.1 и была депонирована в банк 23.03.2020 авторами Belevich T.A., Ilyash L.V., Milyutina I.A., Logacheva M.D. и Troitsky A.V. Хорошим подтверждением того, что образец получен на ББС является название статьи - "Photosynthetic Picoeukaryotes Diversity in the Underlying Ice Waters of the White Sea". К тому же, работа выполнена сотрудниками биологического факультета МГУ. Сама последовательность является неуточненной рибосомальной RNA малой субъединицы. Из-за консервативности последовательности, рибосомальные RNA часто используются для выяснения эволюционных взаимоотношений. Последовательность была отсеквенирована с помощью Illumina.

Качество сборки генома эукариотического организма

В этом задании я решил схитрить и выбрал не совсем многоклеточный организм - слизевика. Он живёт на разлагаемом субстрате, и когда он заканчивается, амёбные клетки выделяют циклический АМФ (сигнал голода), после чего собираются в надклеточный агрегат (нечто вроде гриба с ножкой), где происходит половое размножение и образование спор. Чтобы найти геном диктиостелиума (Dictyostelium discoideum), в базе Genome в GenBank была введена команда dictyostelium discoideum[Organism]. Всего была найдена одна сборка.

Ссылка на запись в GenBank
Ссылка на публикацию с описанием проекта

Рис. 2. Жизненный цикл *Dictyostelium discoideum*

Таблица 1. Данные о сборке

Название (assembly name)	Dictyostelium discoideum AX4, whole genome shotgun sequencing project
AC сборки из RefSeq	GCF_000004695.1
Уровень сборки (assembly level)	Chromosome
Общая длина последовательности	34 204 973
Число контигов	261
N50 для контигов	341 816
L50 для контигов	20
Число скэффолдов	41
N50 для скэффолдов	5 450 249
L50 для скэффолдов	3
Число аннотированных белков	12 500 (из публикации), 13267 (из BioProject)

Также нужно было вытащить последовательность какого-нибудь контига. Я решил взять один из самых длинных контигов (2 520 577 b.p., кодирует 980 белков). Для этого я перешёл на WGS профиль сборки и выбрал там WGS контигов. Затем я выбрал следующий контиг и выгрузил его в fasta формате.

Список полных геномов таксона коронавирусов

В этом задании нужно было получить список полных геномов таксона коронавирусов, содержащего штамм, геном которого изучали в прошлом семестре (см. работу 4 II семестра). Из записи Uniprot был выяснен id таксона, который был использован для поискового запроса в NCBI Virus: 694009. В выдаче мы оставили колонки: Accession, Release_Date, Species, Length, Nuc_Completeness (по ней отсортировали), Geo_Location, Host. Полученную таблицу можно посмотреть в формате csv. Всего нашлось 30350 геномов. Это мы выяснили с помощью:
wc -l sequences.csv
Число собранных геномов можно посчитать с помощью:
grep 'complete' sequences.csv | wc -l
Их 19185. Таблицу только с полными геномами мы получили так:
head -n 19186 sequences.csv > complete_sequences.csv
Из них всего два относятся к RefSeq: NC_045512, NC_004718

CDS последовательности коронавируса

В этом задании нужно было для того же вируса (в моём случае это SARS 2003 года) получить файл с участками генома, предположительно кодирующими белки (CDS).

Таблица 2. Данные о вирусе

AC нуклеотидной записи	NC_004718.3
Латинское название вида	Severe acute respiratory syndrome-related coronavirus Tor2
TaxID вида	227984
Тип генома	"+"-одноцепочечный-RNA-геном
Хозяина вируса	Homo sapiens

Чтобы получить файл, выбрали Send to -> Coding sequences -> FASTA nucleotide. Посмотреть файл можно тут.

Банки нуклеотидных последовательностей

Поиск последовательностей с Беломорской биологической станции

Качество сборки генома эукариотического организма

Список полных геномов таксона коронавирусов

CDS последовательности коронавируса