Для этого практикума мной была выбрана домашняя свинья(Sus scrofa). Здесь нужно сказать о некотрой путанице в терминологии, так как в общем смысле Sus scrofa - кабан, домашняя свинья же иногда считается его подвидом(Sus scrofa domesticus), а иногда выделяется в отдельный вид Sus domesticus/domestica. В связи с этим были проверены все возможные названия данного животного при поиске, и единственным референсным геномом оказался геном свиньи породы дюрок, обозначенной как Sus scrofa. Из-за этого привожу латинское название домашней свиньи в таком виде.
Домашняя свинья - плацентарное млекопитающее из отряда китопарнокопытных. Происходит от одомашненных человеком в неолите кабанов. Домашняя свинья - эукариот, диплоидна, имеет 46 хромосом, из которых 2 - половые.
Как уже было сказано, в латинском названии домашней свиньи есть некоторая путаница, поэтому были проверены разные варианты запросов для поиска по таксономии(Sus scrofa, Sus scrofa(pig), Sus scrofa domesticus/domestica, Sus domesticus/domestica). Из них только по запросу "Sus scrofa(pig)" был найден единственный референсный геном(всего 39 результатов по запросу). Этот геном и был выбран для дальнейшего анализа.
Данная референсная сборка(GCF_000003025.6) выполнена на уровне chromosome, что означает, что данный геном собран до уровня целых хромосом.
В таблице 1 отображены данные сборки. В сборке приведен гаплоидный набор, то есть все аутосомы в единственном экземпляре и две различных половых хромосомы.
N50: длина элемента, для которого половина (50%) всех нуклеотидов сборки содержится в элементах такой и большей длины.
L50: Число элементов(наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки.
Идентификатор GenBank | Идентификатор RefSeq | Общий размер генома (п.н.(b)) | Число фрагментов генома в сборке | N50(контиги) | L50(контиги) | N50(скэффолды) | L50(скэффолды) | GCA_000003025.6 | GCF_000003025.6 | 2.5 Gb | 20 | 48.2 Mb | 15 | 88.2 Mb | 9 |
---|
Судя по данной информации, данный геном действительно полноценно собран(все 18 аутосом и 2 разных половых хромосомы, а также митохондриальный геном). Ко всему прочему, геном получил статус референсного, что подтверждает качество его сборки.
Для дальнейшей работы с данным геномом были скачаны файлы, представленные в таблице 2. К сожалению, файлы очень большие, на сервер их не получилось выгрузить даже в сжатом виде, поэтому привожу ссылку на список файлов и названия конкретных файлов.
Нуклеотидные последовательности генома(FASTA) | Последовательности белков(FASTA) | Последовательности генома с аннотацией(GBFF) | GCF_000003025.6_Sscrofa11.1_genomic.fna.gz | GCF_000003025.6_Sscrofa11.1_protein.faa.gz | GCF_000003025.6_Sscrofa11.1_genomic.gbff.gz |
---|