Селифонов (slfn) учебный сайт; Обо мне

Практикум 7

Задание 1

Фото актинии
Рис. 1. Nematostella vectensis

В рамках данного практикума я решил охарактеризовать сборку генома морского анемона Nematostella vectensis (starlet sea anemone), относящегося к классу Anthozoa (Коралловые полипы) типа Cnidaria (Стрекающие). С экологической точки зрения данный вид относится к так называемым роющим актиниям: Nematostella vectensis имеет длинное червеобразное тело со вздутием на базальном конце и, в отличие от большинства анемонов, не прикрепляется к твердому субстрату педальным диском, а зарывается в мягкий грунт в области сублиторали. Отличительной особенностью рода Nematostella является присутствие в гастральной полости нематосом - богатых нематоцитами свободно плавающих многоклеточных телец, которые образуются путем отпочковывания от мезентериев и, предположительно, участвуют в обездвиживании и переваривании добычи. В последние годы актиния стала важным модельным объектом для изучения биологии развития и молекулярной биологии стрекающих. Кариотип Nematostella vectensis представлен пятнадцатью хромосомами.

Для поиска подходящей сборки генома в базе данных GenBank я использовал в качестве запроса название типа Стрекающие:

Cnidaria (cnidarians)

Выдача от данного запроса содержала 126 сборок. После применения фильтров на наличие аннотации (Annotated) и на уровень сборки Chromosome и выше (chromosome+) был получен список из 3 подходящих сборок, из которых я выбрал сборку jaNemVect1.1 генома Nematostella vectensis.

Выбранная сборка имеет уровень Chromosome, то есть она содержит информацию о последовательности одной или более хромосом. Эти последовательности могут быть относительно полными, а могут состоять из contig-ов и/или scaffold-ов, разделенных гэпами (участками с неизвестной последовательностью). Сборка также может содержать отдельные scaffold-ы.

Сборка jaNemVect1.1 имеет категорию референсной, то есть она была выбрана вручную как наиболее качественная для использования в качестве стандарта при описании других сборок.

Задание 2

Информацию о выбранной сборке я представил в виде таблицы:
GenBank ID RefSeq ID Размер генома (Mb)
GCA_932526225.1 GCF_932526225.1 269.4
Число contig-ов Contig N50* (Mb) Contig L50**
223 2.9 25
Число scaffold-ов Scaffold N50 (Mb) Scaffold L50
47 17.9 7

* N50 - наибольшая длина элемента (contig-а или scaffold-а), для которой 50% нуклеотидов сборки содержатся в соответствующих элементах большей или равной длины.

** L50 - наименьшее число элементов (contig-ов или scaffold-ов), в которых содержится 50% нуклеотидов сборки.

Задание 3

Далее я через сайт NCBI скачал из RefSeq необходимые файлы: