Герб ФББ
  • Главное
  • Семестры
  • Обо мне
  • Официальный сайт ФББ МГУ

    Нуклеотидные банки данных


    Выбор сборки генома эукариотического организма

    В качестве эукариотического организма я выбрала шимпанзе. Его латинское название – Pan troglodytes, а английское – chimpanzee. Я выбрала шимпанзе не только потому, что они являются ближайшими родственниками человека, но и потому что являются родственниками Бонобо (Pan paniscus). Бонобо очень интересны своим поведением и считаются менее развитыми, чем шимпанзе. Такое развитие привело к сохранению большинства детских черт. Поэтому весело наблюдать за ними. Но я посчитала, что шимпанзе будут более изученными, брать их геном выгоднее. Что касается генома, у шимпанзе 2n = 48 хромосом.

    Рис. 1. Отдыхающий шимпанзе (источник)
    Рис. 2. Задумчивый шимпанзе (источник)

    Сборка генома

    Запрос: сборку генома я искала по запросу Pan troglodytes

    Количество найденных сборок: 10

    Выбранная сборка: NHGRI_mPanTro3-v2.0_pri

    Уровень сборки: Chromosome. Это значит, что сборка содержит одну или более хромосом. Это может быть полностью секвенированная хромосома без гэпов или хромосома, содержащая скааффолды/контиги с гэпами между ними.

    Сборка является референсной, то есть вручную отобранной сброкой высокого качества, которую NCBI индентифицировали в качестве стандарта при сравнении с другими.

    Табл. 1. Информация о сборке генома.
    Идентификатор GenBank GCA_028858775.2
    Идентификатор RefSeq GCF_028858775.2
    Размер генома 3.2 Гб
    N50 для контингов 146.3 Мб
    L50 для контингов 9
    N50 для скэффолдов 146.3 Мб
    L50 для скэффолдов 9

    * N50 — это длина самого короткого контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины

    * L50 — это число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки

    Рис. 3. Анализ BUSCO (источник)

    BUSCO показало очень высокое качество сборки.

    Скачивание необходимых файлов

    Скачала следующие файлы:

    • GCF_028858775.2_NHGRI_mPanTro3-v2.0_pri_protein.faa – последовательности белков в формате FASTA;
    • GCF_028858775.2_NHGRI_mPanTro3-v2.0_pri_genomic.fna – нуклеотидные последовательности генома в формате FASTA;
    • GCF_028858775.2_NHGRI_mPanTro3-v2.0_pri_genomic.gbff – последовательности генома с аннотацией