Нуклеотидные базы данных


Задание 1. Выбор геномной сборки


Моё предположение о том, что аннотированную хотя бы в одной из баз данных, сборку генома, понравившегося мне животного, будет просто отыскать, было в корне неверным. Я перебрал несколько поисковых запросов животных разных классов, но ничего не нашел. Тогда я перешел на класс Птиц, вспомнив, что во время летней практики на ЗБС, я делал доклад про кречета (лат. Falco rusticolus), и попробовал вбить в поисковике его видовое название, применив фильтры «Reference genomes» и «Annotated genomes». Меня ждал успех: поиск выдал всего один результат, и это был аннотированный в базе данных NCBI RefSeq геном.
Кречет – самый крупный из соколов, имеет контрастную окраску и характерный зубец на надклювье. В России наиболее распространен на Дальнем востоке, населяя зоны тундры и лесотундры.
Запрос поиска: Falco rusticolus
Уровень сборки: Chromosome, т.е. сборку ДНК-последовательности возможно представить на уровне отдельных хромосом.
В Интернете мне не удалось найти информацию о том, сколько хромосом имеет кречет, однако я отыскал информацию, что кариотип Соколиных отличается от кариотипа большинства птиц (в среднем, число хромосом у большинства птиц равно 80). У Соколиных этот показатель варьируется от 20 пар у обыкновенного канюка (Falcon columbarius) до 26 у пустельги (F. Tinnunculus)[1]. Количество хромосом в сборке – 24 пары (не считая митохондриальной хромосомы) выглядит достоверным.

Не уд>
<figcaption style=Рис. 1. Птенец кречета. Фото U.S. Fish and Wildlife Service Headquarters (flickr.com)

Задание 2. Характеристики выбранной сборки


Идентификатор GenBank GCA_015220075.1
Идентификатор RefSeq GCF_015220075.1
Общий размер генома (п.н.) 1.2 Gb
Число контигов в сборке 767
Число скэффолдов в сборке 132
N50 (Скэффолды) 91.1 Mb
L50 (Скэффолды) 6
N50 (Контиги) 15.3 Mb
L50 (Контиги) 24

N50: Длина наиболее короткого контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины

L50: Наименьшее число контигов, в которых содержится половина (50%) всех нуклеотидов сборки

То же самое для скэффолдов
Несмотря на то, что анализируемая сборка референсная, количество скэффолдов и контигов далеко от количества целых хромосом, уровень сборки приемлемый, но не наивысший (Chromosome заместо Complete Genome), а в литературе не найдено точных данных о количестве хромосом у организма: можно сделать вывод, что данная сборка не обладает высокой надежностью и требует дополнительных проверок на правильность биологических данных.

Задание 3. Скачивание файлов


Файлы, скачанные из RefSeq:

  1. GCA_015220075.1_bFalRus1.pri_genomic.fna – файл, который содержит нуклеотидные последовательности хромосом кречета в формате FASTA.
  2. protein.faa – файл, который содержит последовательности АК известных белков кречета в FASTA-формате.
  3. genomic.gbff – геном организма (кречета) и его полная аннотация: таксономия, координаты участков молекул ДНК, длина нуклеиновой кислоты, идентификатор последовательности, данные об авторах и номер записи в PubMed, хромосомные последовательности и тд

Источники информации:


  1. The gyrfalcon (Falcon rusticolus) genome
Контакты: geonosianin@fbb.msu.ru Светлая тема Тёмная тема Классическая тема