Моё предположение о том, что аннотированную хотя бы в одной из баз данных, сборку генома, понравившегося мне животного, будет просто отыскать, было в корне неверным. Я перебрал несколько поисковых запросов животных разных классов, но ничего не нашел. Тогда я перешел на класс Птиц, вспомнив, что во время летней практики на ЗБС, я делал доклад про кречета (лат. Falco rusticolus), и попробовал вбить в поисковике его видовое название, применив фильтры «Reference genomes» и «Annotated genomes». Меня ждал успех: поиск выдал всего один результат, и это был аннотированный в базе данных NCBI RefSeq геном.
Кречет – самый крупный из соколов, имеет контрастную окраску и характерный зубец на надклювье. В России наиболее распространен на Дальнем востоке, населяя зоны тундры и лесотундры.
Запрос поиска: Falco rusticolus
Уровень сборки: Chromosome, т.е. сборку ДНК-последовательности возможно представить на уровне отдельных хромосом.
В Интернете мне не удалось найти информацию о том, сколько хромосом имеет кречет, однако я отыскал информацию, что кариотип Соколиных отличается от кариотипа большинства птиц (в среднем, число хромосом у большинства птиц равно 80). У Соколиных этот показатель варьируется от 20 пар у обыкновенного канюка (Falcon columbarius) до 26 у пустельги (F. Tinnunculus)[1]. Количество хромосом в сборке – 24 пары (не считая митохондриальной хромосомы) выглядит достоверным.
Идентификатор GenBank | GCA_015220075.1 |
Идентификатор RefSeq | GCF_015220075.1 |
Общий размер генома (п.н.) | 1.2 Gb |
Число контигов в сборке | 767 |
Число скэффолдов в сборке | 132 |
N50 (Скэффолды) | 91.1 Mb |
L50 (Скэффолды) | 6 |
N50 (Контиги) | 15.3 Mb |
L50 (Контиги) | 24 |
N50: Длина наиболее короткого контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины
L50: Наименьшее число контигов, в которых содержится половина (50%) всех нуклеотидов сборки
То же самое для скэффолдов
Несмотря на то, что анализируемая сборка референсная, количество скэффолдов и контигов далеко от количества целых хромосом, уровень сборки приемлемый, но не наивысший (Chromosome заместо Complete Genome), а в литературе не найдено точных данных о количестве хромосом у организма: можно сделать вывод, что данная сборка не обладает высокой надежностью и требует дополнительных проверок на правильность биологических данных.
Файлы, скачанные из RefSeq: