Практикум 7. Банки нуклеотидных последовательностей

Задание 1

Выбор организма для данного задания пал на тип Тихоходки (Bilateria/Protostomia/Ecdysozoa/Panarthropoda/Panarthropoda/Tactopoda/Tardigrade).

Тихоходки по множеству параметров являются очень интересными животными. Впервые открые в 1773 году немецким зоологом Иоганном А. Э. Гозе, они были названы "водяными медведями". В некоторых источниках им приписывается имя "moss piglets".

Представители этого типа известны еще с кембрийского периода (~530 млн лет назад). На данный момент всего известно 1150 видов; Тихоходок можно назвать космополитами, поскольку ареал их обитания крайне велик и разнообразен, хотя большинство предпочитает моховые и лишайниковые подушки. Все представители так или иначе связаны с водной средой.

Тихоходки стали известны не только внутри научного сообщества, но и среди интересующихся популярной биологией за их "неубиваемость". Эти небольшие животные (порядка 0,5 мм в длинну) способны выдерживать экстремальное воздействие огромного числа факторов: температура, давление, отсутствие воздуха, радиация, обезвоживание, голодание, воздействие космоса.

image

Рисунок 1. Микрофотография Hypsibius dujardini (источник)

Что касается генетических особенностей водяных медведей, геномы представителей довольно сильно различаются по размеру: от 75 до 800 мегабаз. Рассматриваемая далее тихоходка Hypsibius dujardini имеет компактный геном в 100 мегабаз и является ценным модельным организмом, поскольку ее легко культивировать и сохранять в лабораторных условиях.

Tardigrade имеют множетсво интересных с биологической точки зрения черт, но я хотела бы отметить наличие у них уникальных генов белков Dsup (Damage suppressor protein; P0DOW4), способствующих защите ДНК от повреждения рентгеновскими лучами. В 2016 году группа ученых из Токийского университета провела серию исследований, в рамках которых изучила влияние этих белков на культуры человеческих клеток и показала, что подавление эффекта от излучения составило порядка 40% ("Extremotolerant tardigrade genome and improved radiotolerance of human cultured cells by tardigrade-unique protein").

image

Рисунок 2. Необычный плюшевый медведь (источник)

В процессе выполнения основного задания название типа Tardigrade было введено в поисковую строку NCBI Genome. Результатом стали 4 сборки (3 принадлежали Hypsibius dujardini, оставшаяся - Ramazzottius varieornatus). Одна из них оказалась сборкой митохондриального генома (митохондрома).

Три оставшихся генома различались числом скаффолдов, количеством CDS и датой релиза. У сборок 15го и 16го года было порядка 22,5 и 15 тысяч скаффолдов, хотя число кодирующих последовательностей не было указано. Сборка 17го года состоит из 1421 скаффолдов и содержит 20,853 CDS, в связи с чем она и была выбрана для дальнейшего рассмотрения. Стоит отметить, что общая длина сборки совпадает с указанным в Википедии для данного вида значением (100 мегабаз).

В таблице 1 представлена основная информация о сборке.

Характеристика Значение
Assembly name nHd_3.1
AC (GenBank) GCA_002082055.1
Assembly level Scaffold
Общая длина (Total ungapped length) 102,014,939
Число контигов 3,060
N50 для контигов 76,809
L50 для контигов 373
Число скэффлодов 1,421
N50 для скэффлодов 342,180
L50 для скэффлодов 85
Число аннотированных белков 20,853
Таблица 1. Необходимая для Задания 1 информация

BioProgect

Поиск контигов начался с данной странички сборки. Переходим по ссылке в ячейке INSDC, после чего нажимаем на ссылку, находящуюся напротив "WGS". Открывается следующая страница. На ней мы видим вкладку "contigs" и список с 1,421 контигом, хотя данная цифра совпадает с числом скэффолдов. Записи также обозначены как "scaffold000*", хотя как минимум в двух местах на странице эти записи обозначены как "contigs". Выбор контига, произведенный с помощью модуля random, пал на "контиг" #596.

Задание 2

Поиск вируса из семейства Myoviridae с ограничением длины генома 30000-40000 производился в базе NCBI с помощью следующей команды:

("Myoviridae"[Organism]) AND (viruses[filter] AND biomol_genomic[PROP])

AND (30000:40000[Sequence Length]) AND ("Complete genome"[All fields]) 

В изначальном варианте команды была следующая строчка:

("Myoviridae"[Organism] OR Myoviridae[All Fields])
Она могла изменить число результатов поиска, но в данном случае от этого их колличество не менялось. Всего было 183 находки: 122 из GenBank и 61 из RefSeq.

В результате был выбран геном вируса Myoviridae sp. isolate ctgg12.

В таблице 2 представлена базовая информация о рассматриваемом геноме.

Характеристика Значение
AC (GenBank) MH510275.1
TaxID 2202564
Тип генома dsDNA, кольцевой
Хозяин Бактерии
Таблица 2. Необходимая для Задания 2 информация
CDS указанного вируса.

Задание 3

Описания 7 ключей особенностей представлены в таблице 3

Ключ Характеристика Пример
repeat_region Область генома, содержащая повторяющиеся элементы
repeat_region   complement(2833..3132) 
                /rpt_family="Alu" 
                /note="repeat match = HSAL03055; putative"
misc_feature Зона интереса, которая не может быть описана никаким другим характерным ключом; новая или редкая функция
misc_feature    complement(2081..2169)
                /note="predicted exon, grail2exons_human_1.3; frame=2, reverse strand, quality=good; putative"
C_region Постоянная область легкой и тяжелой цепей иммуноглобулина и альфа-, бета- и гамма-цепей Т-клеточного рецептора; включает один или несколько экзонов в зависимости от конкретной цепочки
C_region        216..508
                /gene="IgH"
                /note="immunoglobulin heavy chain constant region CH1"
mobile_element Область генома, содержащая мобильные элементы
mobile_element  1..2400
                /mobile_element_type="transposon:transposon PpTRC1"
                /rpt_family="CACTA superfamily"
precursor_RNA Любые РНК, которые еще не стали зрелыми продуктами синтеза РНК; может включать нкРНК, рРНК, тРНК, 5'-нетранслируемый участок (5'UTR), кодирующие последовательности (CDS, экзоны), интроны и 3'-нетранслируемый участок (3'UTR)
precursor_RNA   268..>788
                /note="put. primary transcript"
oriT "Origin of transfer" - область ДНК, где инициируется перенос в процессе конъюгации или мобилизации
oriT            1328..1691
                /direction=RIGHT
                /note="RP4 origin of transfer"
gap Обозначает присуствие гэпа
gap             2010..2109
                /estimated_length=unknown
Таблица 3. Необходимая для Задания 3 информация