Нуклеотидные банки данных

1. Выбор качественной сборки генома

Я хотела найти сборку генома канадского бобра, но у неё было качество на уровне Scaffold. При поиске по семейству Castoridae тоже не были найдены сборки с подходящими параметрами, поэтому я искала по отряду Rodentia, установив фильтры: только аннотированные и референсные сборки с качеством на уровне Chromosome и выше. Было найдено 23 варианта, из которых я выбрала сборку генома thirteen-lined ground squirrel.
Итак, выбранный организм – Ictidomys tridecemlineatus (Thirteen-lined ground squirrel) -тринадцатиполосый суслик.
Thirteen-lined ground squirrel - это грызун, который широко распространен на лугах и в степях Северной Америки. Имеет светлую окраску с 13ю чередующимися коричневыми и беловатыми полосами на спине. Ведут одиночный образ жизни, причем каждый имеет свою территорию (площадью целых 0,8-1,2 гектар), которую они осматривают, стоя на задних лапах. Интересно, что у них есть особые тревожные сигналы, которые служат для предупреждения об опасности генетических родственников.[1] Тринадцатиполосые суслики могут выживать в спячке более шести месяцев без пищи и воды, они сворачиваются в плотный клубок и сокращают частоту дыхания со 100-200 вдохов в минуту до одного вдоха примерно каждые пять минут.[2] Для этого у них есть много физиологических приспособлений: накапливание осмолитов в различных отделах тела[2], подавление многих компонентов клеточного цикла в клетках печени.[3]

Рис. 1. Тринадцатиполосый суслик на лугу. [4]
Рис. 2. Тринадцатиполосый суслик в состоянии спячки и пробуждения. [2]

Информация о геноме тринадцатиполосого суслика:
Гаплоидный набор - 18 хромосом.
Качество сборки на уровне Chromosome, что означает, что сборка генома содержит последовательность одной или нескольких хромосом (либо полностью секвенированная хромосома без гэпов, либо хромосома, содержащая гэпы – участки между скэффолдами, заполненные символами «N»).
Это референсный геном, то есть его сборка проверена человеком и используется как стандарт при сравнении с другими данными.

2. Характеристики выбранной сборки

Таблица 1. Некоторые характеристики сборки генома Ictidomys tridecemlineatus.
Таблица 1

Contig N50 - такая максимальная длина контига, что суммарная длина всех контигов не короче этого представляет из себя не менее 50% от общей длины всех контигов в сборке.
Contig L50 - наименьшее число контигов, в которых содержится 50% всех нуклеотидов сборки.
Аналогично для Scaffold (это упорядоченные и ориентированные наборы контигов).

Таким образом, с одной стороны, есть полная сборка только 2х хромосом – митохондриальной и X-хромосомы, то есть очень небольшой части генома (см. Рис. 3), параметры N50 и L50 невысокие (см. Таблицу 1) и в последовательности много участков, состоящих из «N», что указано ниже; но, с другой стороны, геном является референсным и аннотированным, поэтому данная сборка не совсем полная и качественная, но при этом многие гены аннотированы, что позволяет пользоваться их последовательностями.

Рисунок 3
Рис. 3. В NCBI Datasets есть аннотация только этих хромосом тринадцатиполосого суслика.

3. Файлы с информацией о сборке

Названия файлов с информацией о сборке (были скачаны через NCBI FTP):
GCF_016881025.1_HiC_Itri_2_genomic.fna.gz – содержит нуклеотидную последовательность генома (в FASTA формате). В файле несколько последовательностей, для каждой из которых указано, принадлежит ли она конкретной хромосоме или неопределенному скэффолду (unplaced genomic scaffold). Также заметно много участков «N».
GCF_016881025.1_HiC_Itri_2_genomic.gbff.gz - содержит нуклеотидную последовательность генома с аннотацией (в GBFF формате). В файле есть информация об известных генах, для некоторых CDS указаны последовательности и функции кодируемого белка.
GCF_016881025.1_HiC_Itri_2_protein.faa.gz - содержит белковые последовательности (в FASTA формате), для некоторых белков указаны функции.

Источники

1. Schwagmeyer P. L. Alarm calling behavior of the thirteen-lined ground squirrel, Spermophilus tridecemlineatus //Behavioral Ecology and Sociobiology. – 1980. – Т. 7. – С. 195-200.
2. Feng N. Y. et al. Osmolyte depletion and thirst suppression allow hibernators to survive for months without water //Current Biology. – 2019. – Т. 29. – №. 18. – С. 3053-3058. e3.
3. Wu C. W., Storey K. B. Pattern of cellular quiescence over the hibernation cycle in liver of thirteen-lined ground squirrels //Cell Cycle. – 2012. – Т. 11. – №. 9. – С. 1714-1726.
4. flickr.com