Практикум 7

Нуклеотидные банки данных

Автор старался, но не может гарантировать отсутствие биологических ошибок.

1. Выбор качественной сборки генома эукариотического организма

В качестве эукариотического организма для изучения был выбран лев (латинское название - Panthera leo, название на английском - lion/African lion). Изображение "царя зверей" представлено на рисунке 1. Лев - известный каждому представитель семейства кошачьих (Felidae), символ храбрости и силы. Встречаются в Африке и Индии, хотя исторический ареал обитания был шире. Наряду с тигром, ирбисом, ягуаром и леопардом относится к роду пантер (Panthera). Число хромосом - 38 (2n набор), как и у остальных кошачьих.

The queen is here)
Рисунок 1. Фотография выбранного для изучения организма - Panthera leo. Автор: Pekka Järventaus, National Geographic Your Shot.

Через систему поиска на сайте NCBI был осуществлен поиск сборок генома выбранного организма. По запросу было найдено три сборки (рисунок 2). Первая из них аннотирована (NCBI RefSeq). Качество сборки на уровке Chromosome (в базе данных содержится последовательность минимум одной хромосомы, при этом это может быть не только полностью секвенированная и собранная хромосома, но и содержащая скэффолды, контиги с гэпами и/или нелокализованные скэффолды). Обсуждаемая сборка отмечена как референсная (отобранная вручную геномная сборка высокого качества, с которой можно сравнивать другие). Соответственно для дальнейшего анализа была выбрана первая сборка - P.leo_Ple1_pat1.1.

2. Характеристики выбранной сборки

По данным представленным на веб-интерфейсе сборки составлена таблица 1, содержащая характеристики сборки для P. leo.


Пояснение параметров:
N50 - длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины.
L50 - число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки.
Показатели можно применять и для скэффолдов - промежуточных этапов сборки генома, представляющих собой упорядоченные и ориентированные наборы контигов.

Таблица 1. Характеристики выбранной сборки P.leo_Ple1_pat1.1.
Тип характеристики Данные для P.leo_Ple1_pat1.1
Идентификатор GenBank GCA_018350215.1
Идентификатор RefSeq GCF_018350215.1
Общий размер генома 2.3 Gb
N50 скэффолдов 147.4 Mb
L50 скэффолдов 7
N50 контигов 77.8 Mb
L50 контигов 11

3. Сборка генома, аннотация и предсказанные белковые последовательности выбранного организма

Соответствующие файлы были скачены и просмотрены, информация о них представлена далее:

4. Остальные файлы, принадлежащие сборке

При поиске через NCBI для моей сборки можно обнаружить наличие следующих файлов:

  • GCF_018350215.1_P.leo_Ple1_pat1.1_assembly_report.txt - общая информация о сборке
  • GCF_018350215.1_P.leo_Ple1_pat1.1_cds_from_genomic.fna - с минимальной аннотацией представлены последовательности, кодирующие белки (псевдогены не обнаруживаются)
  • GCF_018350215.1_P.leo_Ple1_pat1.1_genomic.gff - таблица с аннотацией ДНК последовательностей
  • GCF_018350215.1_P.leo_Ple1_pat1.1_genomic.gtf - еще один формат таблицы с аннотацией ДНК последовательностей
  • GCF_018350215.1_P.leo_Ple1_pat1.1_genomic_gaps.txt - данные о гэпах в геномной сборке
  • GCF_018350215.1_P.leo_Ple1_pat1.1_protein.gpff - анотированный файл о белках, с последовательностями аминокислот
  • GCF_018350215.1_P.leo_Ple1_pat1.1_rna.fna - FASTA-файл с последовательностями РНК
  • GCF_018350215.1_P.leo_Ple1_pat1.1_rna.gbff - аннотированный файл о последовательностях РНК
  • The cub)
    Рисунок 4. Фотография маленького P. leo и его сородичей. Автор: Pekka Järventaus, National Geographic Your Shot.