Практикум 7. Нуклеотидные банки данных

Задание 1

1. Я выбрала гавайского ворона Corvus hawaiiensis (hawaiian crow) как представителя воронов, чья сборка подходила под условия задания. На данный момент гавайский ворон считается исчезнувшим в дикой природе.

Представители врановых обладают очень высоким интеллектом, сравнимым с интеллектом приматов, некоторые используют орудия труда для добывания пищи. В том числе недавнее исследование показало наличие абстрактного мышления у новокаледонских ворон - Corvus moneduloides [1].

Найти достоверные источники с информацией о хромосомном наборе птиц рода Corvus мне не удалось. В найденной сборке для гавайского ворона было дано n=43, то есть соматическая клетка содержит 86 хромосом.

Рис. 1 Гавайский ворон

2. Поиск велся по названию рода - Corvus (crows). Было найдено 16 сборок, из которых 5 референсных и столько же аннотированных в RefSeq.

Ссылка на страницу NCBI

3. Уровень сборки - Chromosome. Это значит, что есть последовательность одной или более хромосом, но она может содержать участки с неопределенной последовательностью.

4. Сборка является референсной. То есть она является высококачественной и отобранной специалистами как важная в качестве примера/референса.

Задание 2

Полученные данные представлены ниже:

GenBank GCA_020740725.1
RefSeq GCF_020740725.1
Размер генома 1.2 Gb
Scaffold N50 76.3 Mb
Scaffold L50 6
Contig N50 23.1 Mb
Contig L50 15

Таблица 1: информация о полученной сборке

Пояснения к таблице

Scaffold N50 - в скаффолдах такой же длины или меньше содержится 50% нуклеотидов последовательности. Здесь эта длина равна 76.3 Mb

Scaffold L50 - минимальное количество скаффолдов, которые содержат 50% нуклеотидов последовательности. В данном случае половина нуклеотидов содержится в 6 скаффолдах

Contig N50 - аналогично значению N50 для скаффолдов, эта величина показывает длину, для которой выполняется, что контиги такой или меньшей длины содержат половину нуклеотидов последовательности. Здесь - значение для контига значитльно меньше, чем для скаффолда, и равно 23.1 Mb

Contig L50 - минимальное количество контигов, которые содержат 50% нуклеотидов последовательности. В данном случае - 15 контигов содержат половину нуклеотидов последовательности

Задание 3

Были скачаны следующие файлы:

- Genomic sequence, (FASTA)

- Sequence and annotation (GBFF)

- Proteins (FASTA)