Практикум 7. Банки нуклеотидных последовательностей
Задание 1
Выбор организма для данного задания пал на тип Тихоходки (Bilateria/Protostomia/Ecdysozoa/Panarthropoda/Panarthropoda/Tactopoda/Tardigrade).
Тихоходки по множеству параметров являются очень интересными животными. Впервые открые в 1773 году немецким зоологом Иоганном А. Э. Гозе, они были названы "водяными медведями". В некоторых источниках им приписывается имя "moss piglets".
Представители этого типа известны еще с кембрийского периода (~530 млн лет назад). На данный момент всего известно 1150 видов; Тихоходок можно назвать космополитами, поскольку ареал их обитания крайне велик и разнообразен, хотя большинство предпочитает моховые и лишайниковые подушки. Все представители так или иначе связаны с водной средой.
Тихоходки стали известны не только внутри научного сообщества, но и среди интересующихся популярной биологией за их "неубиваемость". Эти небольшие животные (порядка 0,5 мм в длинну) способны выдерживать экстремальное воздействие огромного числа факторов: температура, давление, отсутствие воздуха, радиация, обезвоживание, голодание, воздействие космоса.
Что касается генетических особенностей водяных медведей, геномы представителей довольно сильно различаются по размеру: от 75 до 800 мегабаз. Рассматриваемая далее тихоходка Hypsibius dujardini имеет компактный геном в 100 мегабаз и является ценным модельным организмом, поскольку ее легко культивировать и сохранять в лабораторных условиях.
Tardigrade имеют множетсво интересных с биологической точки зрения черт, но я хотела бы отметить наличие у них уникальных генов белков Dsup (Damage suppressor protein; P0DOW4), способствующих защите ДНК от повреждения рентгеновскими лучами. В 2016 году группа ученых из Токийского университета провела серию исследований, в рамках которых изучила влияние этих белков на культуры человеческих клеток и показала, что подавление эффекта от излучения составило порядка 40% ("Extremotolerant tardigrade genome and improved radiotolerance of human cultured cells by tardigrade-unique protein").
В процессе выполнения основного задания название типа Tardigrade было введено в поисковую строку NCBI Genome. Результатом стали 4 сборки (3 принадлежали Hypsibius dujardini, оставшаяся - Ramazzottius varieornatus). Одна из них оказалась сборкой митохондриального генома (митохондрома).
Три оставшихся генома различались числом скаффолдов, количеством CDS и датой релиза. У сборок 15го и 16го года было порядка 22,5 и 15 тысяч скаффолдов, хотя число кодирующих последовательностей не было указано. Сборка 17го года состоит из 1421 скаффолдов и содержит 20,853 CDS, в связи с чем она и была выбрана для дальнейшего рассмотрения. Стоит отметить, что общая длина сборки совпадает с указанным в Википедии для данного вида значением (100 мегабаз).
В таблице 1 представлена основная информация о сборке.
Характеристика | Значение |
---|---|
Assembly name | nHd_3.1 |
AC (GenBank) | GCA_002082055.1 |
Assembly level | Scaffold |
Общая длина (Total ungapped length) | 102,014,939 |
Число контигов | 3,060 |
N50 для контигов | 76,809 |
L50 для контигов | 373 |
Число скэффлодов | 1,421 |
N50 для скэффлодов | 342,180 |
L50 для скэффлодов | 85 |
Число аннотированных белков | 20,853 |
Поиск контигов начался с данной странички сборки. Переходим по ссылке в ячейке INSDC, после чего нажимаем на ссылку, находящуюся напротив "WGS". Открывается следующая страница. На ней мы видим вкладку "contigs" и список с 1,421 контигом, хотя данная цифра совпадает с числом скэффолдов. Записи также обозначены как "scaffold000*", хотя как минимум в двух местах на странице эти записи обозначены как "contigs". Выбор контига, произведенный с помощью модуля random, пал на "контиг" #596.
Задание 2
Поиск вируса из семейства Myoviridae с ограничением длины генома 30000-40000 производился в базе NCBI с помощью следующей команды:
("Myoviridae"[Organism]) AND (viruses[filter] AND biomol_genomic[PROP])
AND (30000:40000[Sequence Length]) AND ("Complete genome"[All fields])
В изначальном варианте команды была следующая строчка:
("Myoviridae"[Organism] OR Myoviridae[All Fields])Она могла изменить число результатов поиска, но в данном случае от этого их колличество не менялось. Всего было 183 находки: 122 из GenBank и 61 из RefSeq.
В результате был выбран геном вируса Myoviridae sp. isolate ctgg12.
В таблице 2 представлена базовая информация о рассматриваемом геноме.
Характеристика | Значение |
---|---|
AC (GenBank) | MH510275.1 |
TaxID | 2202564 |
Тип генома | dsDNA, кольцевой |
Хозяин | Бактерии |
Задание 3
Описания 7 ключей особенностей представлены в таблице 3
Ключ | Характеристика | Пример |
---|---|---|
repeat_region | Область генома, содержащая повторяющиеся элементы | repeat_region complement(2833..3132) /rpt_family="Alu" /note="repeat match = HSAL03055; putative" |
misc_feature | Зона интереса, которая не может быть описана никаким другим характерным ключом; новая или редкая функция | misc_feature complement(2081..2169) /note="predicted exon, grail2exons_human_1.3; frame=2, reverse strand, quality=good; putative" |
C_region | Постоянная область легкой и тяжелой цепей иммуноглобулина и альфа-, бета- и гамма-цепей Т-клеточного рецептора; включает один или несколько экзонов в зависимости от конкретной цепочки | C_region 216..508 /gene="IgH" /note="immunoglobulin heavy chain constant region CH1" |
mobile_element | Область генома, содержащая мобильные элементы | mobile_element 1..2400 /mobile_element_type="transposon:transposon PpTRC1" /rpt_family="CACTA superfamily" |
precursor_RNA | Любые РНК, которые еще не стали зрелыми продуктами синтеза РНК; может включать нкРНК, рРНК, тРНК, 5'-нетранслируемый участок (5'UTR), кодирующие последовательности (CDS, экзоны), интроны и 3'-нетранслируемый участок (3'UTR) | precursor_RNA 268..>788 /note="put. primary transcript" |
oriT | "Origin of transfer" - область ДНК, где инициируется перенос в процессе конъюгации или мобилизации | oriT 1328..1691 /direction=RIGHT /note="RP4 origin of transfer" |
gap | Обозначает присуствие гэпа | gap 2010..2109 /estimated_length=unknown |