В этом практикуме необходимо было научиться работать с банками нуклеотидных последовательностей.
В этой части практикума необходимо было найти в GenBANK NCBI последовательность, отсеквенированную на Беломорской Биологической станции, и кратко описать её. Несмотря на кажущуюся простоту задания, найти нужный банк удалось не сразу.
Поиск осуществлялся по запросу "WSBS" (английская аббревиатура ББС), а затем все записи просматривались более детально, пока не была найдена подходящая.
Выбранная мною запись под идентификатором KY463770 содержит ген субъединицы цитохрооксидазы, полученный из организма Aeolidia papillosa.
Это последовательность
ДНК, состоящая из 656 пар нуклеотидов и депонированная в банк последовательностей 1 февраля 2019 года. Авторами записи являются
Chichvarkhin,A., Valdes,A., Vainola,R., Laakkonen,H. и Chichvarkhina,O. (чтобы не перепутать фамилии, оставил их в английской записи).
Понять, что эта последовательность была отсеквенирована на ББС, можно, если заглянуть в раздел Features - в частности, там можно найти следующую строку:
/country="Russia: White Sea, Kandalaksha Bay, WSBS MSU"
Вероятно, секвенирование проводилось для изучения филогеографии данного вида. Я подумал так из-за первого поля reference в котором, вероятно,
написан заголовок предполагаемой
статьи (Phylogeography of Aeolidia papillosa), хотя указано, что она так и не была опубликована, а именно после названия была строчка JOURNAL: Unpublished.
Немного расскажу о животном, из которого отсеквенировали данную последовательность. Это представитель отряда Голожаберных моллюсков, в англоязычных источниках
указано название "обыкновенный серый морской слизень". Обитает в Атлантике, Балтийском море. Достигает длины 12 см (не очень большой по размерам)
Из интересного - указано, что секвенирование производилось с помощью дидезоксинуклеотидов (по Сэнгеру). Ещё из интересного можно отметить то, что указана
аминокислотная последовательность белокового продукта (не во всех записях, насколько я посмотрел, такое показывают)
Fasta-файл с последовательностью можно скачать по этой ссылке.
Для анализа сборки генома был выбран многоклеточный эукариот - крапчатая утка (Stictonetta naevosa). Обитает в болотистых местностях или на открытых озёрах в Южной Австралии, поэтому является видом-эндемиком. Какое-то время назад эта утка была отнесена к исчезающим видам, однако сейчас её численность настолько велика, что вид не вызывает опасений..
Сама утка небольшая, питается водорослями, червями и маленьким зоопланктоном (как и все остальные утки). Наблюдается половой диморфизм - самцы с красным клювом, самки
невзрачные и серые. Уникальной особенностью является толстая, но мягкая скорлупа на откладываемых яйцах.
Для крапчатой утки существует всего одна сборка генома под названием BPBGC_Snae_1.0.
Некоторые данные об этой сборке можно посмотреть в таблице ниже.
AC из сборки GenBank | GCA_011074415.1 |
"Уровень" сборки (assembly level) | Chromosome |
Общая длина последовательности | 1,132,698,962 |
Информация о контигах | Количество - 27,664 N50 - 136,958 L50- 2,155 |
Информация о скэффолдах | Количество - 8,736 N50 - 10,707,530 L50- 33 |
Число аннотированных белков | не было указано |
Ссылка на последовательность контига | ссылка на файл |
Ссылка на публикацию с описанием проекта | самое близкое к публикации, что мне удалось найти |
В этом задании необходимо было найти полные геномы коронавируса, содержащие определённый штамм (в моем случае - MERS).
Поиск производился при помощи ввода id таксона Middle-East respiratory virus: 1335626. Ссылку на полученную таблицу можно увидеть ниже, в ней были оставлены столбцы:
* Accession
* Release_Date
* Species
* Length
* Nuc_Completeness
* Geo_Location
* Host
* Isolation_Source
ссылка на csv-таблицу
ссылка на csv-таблицу с полными геномами
Всего было найдено 530 находок с полным геномом. Нашлось всего 2 генома из RefSeq, их AC: GCF_002816195.1 и GCF_002816195.1.
Для того же вируса, что и в предыдущем задании, нужно было получить файл с участками генома, предположительно кодирующими белки (CDS). Для скачивания файла были
выбраны следующие опции:
Информацию о конкретном геноме и fasta-файл можно найти в таблице ниже.
AC нуклеотидной записи | NC_038294.1 |
Латинское название | Betacoronavirus England 1 |
TaxID вида | 1263720 |
Тип генома | одноцепочечная линейная РНК |
Хозяин вируса | Homo sapiens |
Ссылка на файл с CDS-последовательностями | ссылка на fasta-файл |