Практикум 7
Задание 1
В рамках данного практикума я решил охарактеризовать сборку генома морского анемона Nematostella vectensis (starlet sea anemone), относящегося к классу Anthozoa (Коралловые полипы) типа Cnidaria (Стрекающие). С экологической точки зрения данный вид относится к так называемым роющим актиниям: Nematostella vectensis имеет длинное червеобразное тело со вздутием на базальном конце и, в отличие от большинства анемонов, не прикрепляется к твердому субстрату педальным диском, а зарывается в мягкий грунт в области сублиторали. Отличительной особенностью рода Nematostella является присутствие в гастральной полости нематосом - богатых нематоцитами свободно плавающих многоклеточных телец, которые образуются путем отпочковывания от мезентериев и, предположительно, участвуют в обездвиживании и переваривании добычи. В последние годы актиния стала важным модельным объектом для изучения биологии развития и молекулярной биологии стрекающих. Кариотип Nematostella vectensis представлен пятнадцатью хромосомами.
Для поиска подходящей сборки генома в базе данных GenBank я использовал в качестве запроса название типа Стрекающие:
Cnidaria (cnidarians)
Выдача от данного запроса содержала 126 сборок. После применения фильтров на наличие аннотации (Annotated) и на уровень сборки Chromosome и выше (chromosome+) был получен список из 3 подходящих сборок, из которых я выбрал сборку jaNemVect1.1 генома Nematostella vectensis.
Выбранная сборка имеет уровень Chromosome, то есть она содержит информацию о последовательности одной или более хромосом. Эти последовательности могут быть относительно полными, а могут состоять из contig-ов и/или scaffold-ов, разделенных гэпами (участками с неизвестной последовательностью). Сборка также может содержать отдельные scaffold-ы.
Сборка jaNemVect1.1 имеет категорию референсной, то есть она была выбрана вручную как наиболее качественная для использования в качестве стандарта при описании других сборок.
Задание 2
Информацию о выбранной сборке я представил в виде таблицы:GenBank ID | RefSeq ID | Размер генома (Mb) |
---|---|---|
GCA_932526225.1 | GCF_932526225.1 | 269.4 |
Число contig-ов | Contig N50* (Mb) | Contig L50** |
223 | 2.9 | 25 |
Число scaffold-ов | Scaffold N50 (Mb) | Scaffold L50 |
47 | 17.9 | 7 |
* N50 - наибольшая длина элемента (contig-а или scaffold-а), для которой 50% нуклеотидов сборки содержатся в соответствующих элементах большей или равной длины.
** L50 - наименьшее число элементов (contig-ов или scaffold-ов), в которых содержится 50% нуклеотидов сборки.
Задание 3
Далее я через сайт NCBI скачал из RefSeq необходимые файлы:- GCF_932526225.1_jaNemVect1.1_genomic.fna - последовательности генома в формате fasta.
- genomic.gbff - последовательности генома с аннотацией в формате gbff.
- protein.faa - последовательности белков в формате fasta.