УЧЕБНЫЙ САЙТ АРТЕМА МУРАВЛЕВА

Практикум 7

Для этого практикума мной была выбрана домашняя свинья(Sus scrofa). Здесь нужно сказать о некотрой путанице в терминологии, так как в общем смысле Sus scrofa - кабан, домашняя свинья же иногда считается его подвидом(Sus scrofa domesticus), а иногда выделяется в отдельный вид Sus domesticus/domestica. В связи с этим были проверены все возможные названия данного животного при поиске, и единственным референсным геномом оказался геном свиньи породы дюрок, обозначенной как Sus scrofa. Из-за этого привожу латинское название домашней свиньи в таком виде.

Ошибка
Рисунок 1. Свинья породы дюрок. Источник изображения

Домашняя свинья - плацентарное млекопитающее из отряда китопарнокопытных. Происходит от одомашненных человеком в неолите кабанов. Домашняя свинья - эукариот, диплоидна, имеет 46 хромосом, из которых 2 - половые.

Как уже было сказано, в латинском названии домашней свиньи есть некоторая путаница, поэтому были проверены разные варианты запросов для поиска по таксономии(Sus scrofa, Sus scrofa(pig), Sus scrofa domesticus/domestica, Sus domesticus/domestica). Из них только по запросу "Sus scrofa(pig)" был найден единственный референсный геном(всего 39 результатов по запросу). Этот геном и был выбран для дальнейшего анализа.

Данная референсная сборка(GCF_000003025.6) выполнена на уровне chromosome, что означает, что данный геном собран до уровня целых хромосом.

В таблице 1 отображены данные сборки. В сборке приведен гаплоидный набор, то есть все аутосомы в единственном экземпляре и две различных половых хромосомы.

N50: длина элемента, для которого половина (50%) всех нуклеотидов сборки содержится в элементах такой и большей длины.

L50: Число элементов(наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки.

Таблица 1. Информация о сборке GCF_000003025.6
Идентификатор GenBank Идентификатор RefSeq Общий размер генома (п.н.(b)) Число фрагментов генома в сборке N50(контиги) L50(контиги) N50(скэффолды) L50(скэффолды)
GCA_000003025.6 GCF_000003025.6 2.5 Gb 20 48.2 Mb 15 88.2 Mb 9

Судя по данной информации, данный геном действительно полноценно собран(все 18 аутосом и 2 разных половых хромосомы, а также митохондриальный геном). Ко всему прочему, геном получил статус референсного, что подтверждает качество его сборки.

Для дальнейшей работы с данным геномом были скачаны файлы, представленные в таблице 2. К сожалению, файлы очень большие, на сервер их не получилось выгрузить даже в сжатом виде, поэтому привожу ссылку на список файлов и названия конкретных файлов.

Таблица 2. Данные сборки GCF_000003025.6(страница_с_данными)
Нуклеотидные последовательности генома(FASTA) Последовательности белков(FASTA) Последовательности генома с аннотацией(GBFF)
GCF_000003025.6_Sscrofa11.1_genomic.fna.gz GCF_000003025.6_Sscrofa11.1_protein.faa.gz GCF_000003025.6_Sscrofa11.1_genomic.gbff.gz