Банки нуклеотидных последовательностей

В этом практикуме необходимо было научиться работать с банками нуклеотидных последовательностей.

Секвенированная последовательность с ББС

В этой части практикума необходимо было найти в GenBANK NCBI последовательность, отсеквенированную на Беломорской Биологической станции, и кратко описать её. Несмотря на кажущуюся простоту задания, найти нужный банк удалось не сразу.

Генбанк?

Поиск осуществлялся по запросу "WSBS" (английская аббревиатура ББС), а затем все записи просматривались более детально, пока не была найдена подходящая.
Выбранная мною запись под идентификатором KY463770 содержит ген субъединицы цитохрооксидазы, полученный из организма Aeolidia papillosa.

Это последовательность ДНК, состоящая из 656 пар нуклеотидов и депонированная в банк последовательностей 1 февраля 2019 года. Авторами записи являются Chichvarkhin,A., Valdes,A., Vainola,R., Laakkonen,H. и Chichvarkhina,O. (чтобы не перепутать фамилии, оставил их в английской записи).

Понять, что эта последовательность была отсеквенирована на ББС, можно, если заглянуть в раздел Features - в частности, там можно найти следующую строку:

/country="Russia: White Sea, Kandalaksha Bay, WSBS MSU"

Вероятно, секвенирование проводилось для изучения филогеографии данного вида. Я подумал так из-за первого поля reference в котором, вероятно, написан заголовок предполагаемой статьи (Phylogeography of Aeolidia papillosa), хотя указано, что она так и не была опубликована, а именно после названия была строчка JOURNAL: Unpublished.

Немного расскажу о животном, из которого отсеквенировали данную последовательность. Это представитель отряда Голожаберных моллюсков, в англоязычных источниках указано название "обыкновенный серый морской слизень". Обитает в Атлантике, Балтийском море. Достигает длины 12 см (не очень большой по размерам)

Выглядит мило, но трогать его не хочу

Из интересного - указано, что секвенирование производилось с помощью дидезоксинуклеотидов (по Сэнгеру). Ещё из интересного можно отметить то, что указана аминокислотная последовательность белокового продукта (не во всех записях, насколько я посмотрел, такое показывают)
Fasta-файл с последовательностью можно скачать по этой ссылке.

Оценка качества сборки генома эукариотического организма

Для анализа сборки генома был выбран многоклеточный эукариот - крапчатая утка (Stictonetta naevosa). Обитает в болотистых местностях или на открытых озёрах в Южной Австралии, поэтому является видом-эндемиком. Какое-то время назад эта утка была отнесена к исчезающим видам, однако сейчас её численность настолько велика, что вид не вызывает опасений..

Ареал обитания. Место обитания отмечено фиолетовым цветом.

Сама утка небольшая, питается водорослями, червями и маленьким зоопланктоном (как и все остальные утки). Наблюдается половой диморфизм - самцы с красным клювом, самки невзрачные и серые. Уникальной особенностью является толстая, но мягкая скорлупа на откладываемых яйцах.

Для крапчатой утки существует всего одна сборка генома под названием BPBGC_Snae_1.0.
Некоторые данные об этой сборке можно посмотреть в таблице ниже.


AC из сборки GenBank GCA_011074415.1
"Уровень" сборки (assembly level) Chromosome
Общая длина последовательности 1,132,698,962
Информация о контигах Количество - 27,664
N50 - 136,958
L50- 2,155
Информация о скэффолдах Количество - 8,736
N50 - 10,707,530
L50- 33
Число аннотированных белков не было указано
Ссылка на последовательность контига ссылка на файл
Ссылка на публикацию с описанием проекта самое близкое к публикации, что мне удалось найти

Получение списка полных геномов коронавирусов

В этом задании необходимо было найти полные геномы коронавируса, содержащие определённый штамм (в моем случае - MERS).
Поиск производился при помощи ввода id таксона Middle-East respiratory virus: 1335626. Ссылку на полученную таблицу можно увидеть ниже, в ней были оставлены столбцы:
* Accession
* Release_Date
* Species
* Length
* Nuc_Completeness
* Geo_Location
* Host
* Isolation_Source

ссылка на csv-таблицу
ссылка на csv-таблицу с полными геномами

Всего было найдено 530 находок с полным геномом. Нашлось всего 2 генома из RefSeq, их AC: GCF_002816195.1 и GCF_002816195.1.

Последовательности CDS одного генома коронавируса

Для того же вируса, что и в предыдущем задании, нужно было получить файл с участками генома, предположительно кодирующими белки (CDS). Для скачивания файла были выбраны следующие опции:

Send to -> Coding Sequences -> FASTA Nucleotide

Информацию о конкретном геноме и fasta-файл можно найти в таблице ниже.

AC нуклеотидной записи NC_038294.1
Латинское название Betacoronavirus England 1
TaxID вида 1263720
Тип генома одноцепочечная линейная РНК
Хозяин вируса Homo sapiens
Ссылка на файл с CDS-последовательностями ссылка на fasta-файл