Беломорская биологическая станция МГУ расположена расположена на Карельском берегу Кандалакшского залива Белого моря.
В этом задании нужно было найти и рассмотреть запись, которая была внесена коллегами в
базу данных GenBank. Для того, чтобы найти последовательность, был введён запрос:
White AND Sea AND Kandalaksha AND Bay
Всего было выдано 685 записей. Выбранная последовательность в формате fasta тут.
В этом задании я решил схитрить и выбрал не совсем многоклеточный организм - слизевика.
Он живёт на разлагаемом субстрате, и когда он заканчивается, амёбные клетки выделяют циклический АМФ (сигнал голода),
после чего собираются в надклеточный агрегат (нечто вроде гриба с ножкой), где происходит половое размножение и образование спор.
Чтобы найти геном диктиостелиума (Dictyostelium discoideum), в базе Genome в GenBank была введена команда dictyostelium discoideum[Organism]
.
Всего была найдена одна сборка.
Таблица 1. Данные о сборке
Название (assembly name) | Dictyostelium discoideum AX4, whole genome shotgun sequencing project |
AC сборки из RefSeq | GCF_000004695.1 |
Уровень сборки (assembly level) | Chromosome |
Общая длина последовательности | 34 204 973 |
Число контигов | 261 |
N50 для контигов | 341 816 |
L50 для контигов | 20 |
Число скэффолдов | 41 |
N50 для скэффолдов | 5 450 249 |
L50 для скэффолдов | 3 |
Число аннотированных белков | 12 500 (из публикации), 13267 (из BioProject) |
В этом задании нужно было получить список полных геномов таксона коронавирусов, содержащего штамм, геном которого изучали в прошлом семестре (см. работу 4 II семестра).
Из записи Uniprot был выяснен id таксона, который был использован для поискового запроса в NCBI Virus: 694009
.
В выдаче мы оставили колонки: Accession, Release_Date, Species, Length, Nuc_Completeness (по ней отсортировали), Geo_Location, Host.
Полученную таблицу можно посмотреть в формате csv.
Всего нашлось 30350 геномов. Это мы выяснили с помощью:
wc -l sequences.csv
Число собранных геномов можно посчитать с помощью:
grep 'complete' sequences.csv | wc -l
Их 19185. Таблицу только с полными геномами мы получили так:
head -n 19186 sequences.csv > complete_sequences.csv
Из них всего два относятся к RefSeq: NC_045512, NC_004718
В этом задании нужно было для того же вируса (в моём случае это SARS 2003 года) получить файл с участками генома, предположительно кодирующими белки (CDS).
Таблица 2. Данные о вирусе
AC нуклеотидной записи | NC_004718.3 |
Латинское название вида | Severe acute respiratory syndrome-related coronavirus Tor2 |
TaxID вида | 227984 |
Тип генома | "+"-одноцепочечный-RNA-геном |
Хозяина вируса | Homo sapiens |
Чтобы получить файл, выбрали Send to
-> Coding sequences
-> FASTA nucleotide
.
Посмотреть файл можно тут.