Posted Monday, October 24, 2016. Renewed Friday, November 4, 2016 by Marina Gladkova

Банки данных нуклеотидных последовательностей.

Задание 1. Характеристика качества сборки генома эукариотического организма.


В данном практикуме в качестве объекта исследования был выбран эукариотический организм Tursiops truncatus (bottlenosed dolphin) - афалина или большой/бутылконосый дельфин. Относится к роду Афалины (Tursiops) наряду с индийской афалиной (Tursiops aduncus) и австралийской афалиной (Tursiops australis). [1] По данным NCBI, мозг этого дельфина по объёму больше человеческого, животное обладает высоким уровнем интеллекта. Диплоидный геном афалины содержит 21 пару аутосом и 1 пару половых хромосом. В настоящее время большой дельфин является наиболее хорошо изученным видом. [2]

Распространен в умеренных и теплых водах Мирового океана. В Атлантике живёт от широты Южной Гренландии и Норвегии до Уругвая, Аргентины и Южной Африки, включая Балтийское, Чёрное, Средиземное, Карибское моря. В Индийском океане обитает от его северных берегов, включая Красное море, на юг до широты Южной Африки, Южной Австралии. В Тихом океане встречается от Японии, Курильской гряды, штата Орегон до Тасмании, Новой Зеландии и Аргентины. В российских водах встречается в Чёрном море и в значительно меньшей степени — в Балтийском море. На большей части своего ареала афалины образуют две формы: прибрежную (от 1 до 10 особоей) и открытого моря (1-25 особоей, могут встречаться стада до 500 особей). Они отличаются друг от друга по ряду параметров: размеру тела, промерам черепа, содержанию гемоглобина и паразитам. В Чёрном море такого разделения нет.
Афалина Умеренно развитый раструм четко ограничен от выпуклой лобно-носовой (жировой) подушки. Череп достигает в длину 58 см. Нёбо плоское, без боковых желобов. Спинной плавник высокий, на широком основании, сзади полулунно вырезан. Грудные плавники у основания широкие, к концу заостряются, по переднему краю выпуклые, а по тонкому заднему вогнутые. Окраска тела сверху темно-бурая, снизу светлая (от серой до белой); узор на боках тела непостоянен, часто совсем не выражен. У афалин, обитающих в Чёрном море, выделяют 2 цветовые группы. Зубы крепкие, конически заостренные, 6-10 мм толщиной, 19-28 пар вверху (40-52) и на 1-3 пары меньше внизу (36-48). Расположены так, что между ними имеются свободные пространства. При смыкании зубы верхнего ряда попадают в промежутки между зубами нижнего ряда. У старых особей коронки снашиваются и образуется «дупло». Нижняя челюсть немного длиннее верхней. Вес взрослого представителя — 150—400 кг. [2]

Афалина в прыжке Основу рациона в Чёрном море составляют ставрида, анчоус, пикша, камбала, кефаль, лобан, барабуля, умбрина, хамса, пеламида, морские ерши, скаты; в других морях — акулы, угри, головоногие моллюски. Взрослая афалина может съедать 8-15 кг в день. Добычу дельфины находят способом эхолокации. Между собой эти млекопитающие общаются писком и свистом, на языке тела – прыжками и хлопками по воде хвостом. Пик активности приходится на дневные часы. Дельфины погружаются максимум на 300 метров, за пищей они обычно ныряют на 80-150 метров. Под водой может пробыть максимум 15 минут, во время поиска пищи погружается на 5-7 минут. Спят дельфины в воде, периодически всплывая, чтобы вдохнуть воздух. При этом они не просыпаются, все происходит на уровне рефлексов.

Размножаются афалины в наших водах весной и летом. Беременность афалины продолжается 12 месяцев, а гон от 3—4 дней до нескольких недель. Рожает самка на мелководье, в теплой воде. Обычно рождается один детеныш, очень редко – два. В длину новорожденный обычно 80-140 см. Весит детеныш при рождении 15-30 кг. Сразу после появления на свет самка выталкивает детеныша на поверхность, чтобы он вдохнул воздух. Самка кормит детеныша молоком 18 месяцев. При этом с 6 месяца дельфиненок уже употребляет и твердую пищу. Половозрелыми самки становятся в 5-7 лет, а самцы – в 9-11 лет. Потомство у самки появляется один раз каждые 2-4 года. Афалины живут в естественной среде около 50 лет, в неволе – примерно в 2 раза меньше, даже при соответственном питании.

Афалина является объектом CITES (приложение II). В Красную книгу России занесен черноморский подвид (категория 3). В Красной Книге Международного Союза Охраны Природы (IUCN) вид отнесен к категории DD.
Афалина-улыбашка Прирученные дельфины легко поддаются дрессировке. Их смело можно выпускать в море, и они не уплывут. А если все же воспользуются свободой, то непременно время от времени будут наведываться в гости. И отнюдь не для того, чтобы подкормиться даровой рыбой. Дельфины — рабы привычек. Вновь переключившись на питание живой рыбой, они будут игнорировать мороженую. Дельфины возвращаются к людям из одного желания пообщаться. Дельфины не только легко дрессируются, но при общении с человеком даже подражают ему. Некоторые дрессировщики утверждают, что дельфины не только переговариваются между собой с помощью акустических сигналов, но и способны разговаривать с человеком. Такие утверждения были сделаны американским нейрофизиологом Джоном Лилли и другими учёными. Во всяком случае известно, что некоторые дельфины при дрессировке осваивали до 25 слов. Свои знания дельфины подтверждали исполнением определённых команд, подаваемых человеком.


Сегодня существует только одна (GCA_000151865.3) сборка генома для данного организма – Ttru_1.4. Имеется 5 проектов по секвенированию транскриптома и исследованию экспрессии генов [4], проект RAD sequencing, а также 2 связанных проекта по изучению геномов:
1) PRJNA189944
2) PRJNA20367 (low coverage genome sequencing)
Зарегистрированные 23 сентября 2008 года данные проекты являются частью Dolphin Genome Project медицинского колледжа Бейлора. Реализованы BCM-HGSC совместно с университетом Broad Institute of MIT c целью изучения эволюции морских млекопитающих. Был использован лишь один образец - SAMN00000070 (Sample name: Tursiops truncatus; SRA: SRS000266), взятый у здоровой самки афалины в рамках программы US Navy Marine Mammal Program.

Описание имеющейся сборки Ttru_1.4
Образец SAMN00000070Название образца: Tursiops truncatus
Архив ридов последовательностей: SRS000266
Организм: Tursiops truncatus (афалина)
клеточные организмы; эукариоты; заднежгутиковые; многоклеточные; настоящие многолекточные; двусторонне-симметричные; вторичноротые; хордовые; черепные; позвоночные; челюстноротые; четвероногие; амниоты; млекопитающие; звери; плацентарные; бореоэутерии; лавразиотерии; китопарнокопытные; китообразные; зубатые киты; дельфиновые; афалины
Аттрибуты: пол женский
Описание: Tursiops truncatus геномный образец
СборкаДлина последовательности: 2,551,418,184
Общая длина гэпов сборки: 219,423,391
Гэпы между скэффолдами: 0
Число скэффолдов: 240,558
Scaffold N50: 116,287
Scaffold L50: 6,389
Число контигов: 554,228
Contig N50: 11,821
Contig L50: 57,666
Общее число хромосом и плазмид: 1
Таблица контигов
Самый длинный контиг: 109820 (ABRN02358710)
Самый короткий контиг: 32 (ABRN02306064)
Последовательность контига с длиной, примерно равной половине максимального контига: 54915 (ABRN02000046)


Задание 2. Ключи, используемые в таблицах особенностей.


Анализ последовательностей нуклеиновых кислот играет ключевую роль в изучении строения, физиологии и развития множества генетически разнообразных живых организмов, поэтому известные банки биологических данных - GenBank совместно с EMBL (и позже присоединившийся DDBJ), начиная с 1968 года, разрабатывают единые стандарты для таблиц аннотирования. Так, для чёткого иерархичного представления и описания геномных элементов исследуемого объекта используются специальные таблицы сайтов и особенностей. [5]

Главная цель таблицы особенностей - создание избыточного словаря обозначений, необходимого для удобного ежедневного обмена данными. В документации педставлены правила описания участков,..
  • определенной биологической функции
  • влияющих на экспрессию биофункции или являющиеся её результатом
  • взаимодействующих с другими молекулами
  • влияющих на репликацию последовательности
  • влияющих на результат (являющиеся результатом) рекомбинации последовательностей
  • определенно повторяющихся
  • имеющих вторичную/третичную структуру
  • представленных в разных формах или отредактированных

  • Дизайн формата основан на табличном подходе и состоит из приведённых характеристик:
  • Feature key/Характеристический ключ - слово/аббревиатура, определяющее(ая) функциональную группу
  • Location/Расположение - инструкции поиска данного параметра
  • Qualifiers/Спецификаторы - дополнительная информация о параметре


  • Формат и формулировки таблиц ключей используют общепринятую биологическую терминологию. Например, данное описание может быть прочитано следующим образом:
    Key             Location/Qualifiers
    CDS             join(544..589,688..>1032)
                    /product="T-cell receptor beta-chain"
    

    Данная область является частично кодирующей последовательностью, образованной благодаря присоединению элементов, формирующих единую непрерывную последовательность, которая, в свою очередь, кодирует бета-цепь так называемого T-клеточного рецептора.

    Примеры ключей
    Название, примерОписание
    1. iDNA
    
    iDNA            96..261
                    /note="internal eliminated sequence 1"
    Intervening DNA (последовательность интронов); ДНК, которая элиминируется после рекомбинации.
    2. S_region
    
    S_region        629..4806
                    /gene="I alpha"
                    /note="alpha switch region"
    Сайт переключения (последовательность аминокислот в месте сочленения вариабельных и константных областей цепей иммуноглобулинов); участвует в реорганизации тяжёлых цепей ДНК, вызывающих экспрессию разных классов иммуноглобулинов в B-клетках.
    3. unsure
    
    unsure          76116..77129
                    /note="Unresolved tandem repeat."
    Маленький участок отсеквенированных оснований, обычно длиной в 10 пар оснований или меньше, который не может быть точно идентифицирован. Он может содержать как, идентифицированные (A, T, G, C), так и не определенные основания ('N'). Ключ не может быть использован при аннотации гэпов в геномных сборках.
    4. variation
    
    variation       2742
                    /gene="SLC7A1"
                    /frequency="0.318"
                    /replace="c"
    У родственных штаммов в данном гене наблюдаются устойчивые мутации (например, RFLPs, полиморфизмы). Последовательности в данной локации (и, возможно, в других положениях тоже) отличаются от представленной.
    5. misc_binding
    
    misc_binding    complement(242084..242171)
                    /inference="COORDINATES: nucleotide
                    motif:Rfam:12.0:RF00504"
                    /inference="COORDINATES: 
                    profile:INFERNAL:1.1.1"
                    /note="glycine riboswitch; 
    		Derived by automated
                    computational analysis using 
    		gene prediction method:
                    cmsearch."
    Сайт в нуклеиновой кислоте, ковалентно или нековалентно связанный c другим фрагментом, который не может быть описан с помощью других ключей (primer_bind or protein_bind).
    6. stem_loop
    
    stem_loop       998..1069
                    /gene="MSRB1"
                    /gene_synonym="HSPC270; 
    		SELR; SELX; SepR; SEPX1"
                    /note="SECIS_element"
    Шпилька; участок двойной спирали, где соединяются две комплементарные последовательности одной и той же цепи (РНК или ДНК), перегибаясь одна к другой и образуя на конце неспаренный участок — петлю.
    7. STS
    
    STS             406..753
                    /gene="F54E2.5"
                    /locus_tag="CELE_F54E2.5"
                    /standard_name="F54E2.5"
                    /db_xref="UniSTS:305632"
    Sequence tagged site (тэгированный сайт последовательности); короткая, уникальная копия участка последовательности ДНК, которая служит картированной меткой генома и может быть детектирована в процессе ПЦР; участок генома может быть картирован в результате определения серии STS.
    8. V_segment
    
    V_segment       join(361..409,510..856)
                    /gene="LOC108921376"
                    /standard_name="T-cell receptor 
    		alpha chain V region
                    RL-5-like"
                    /note="Derived by automated 
    		computational analysis using
                    gene prediction method: Gnomon. 
    		Supporting evidence includes 
    		similarity to: 2 Proteins, 
    		and 77% coverage of
                    the annotated genomic feature 
    		by RNAseq alignments"
                    /db_xref="GeneID:108921376"
    Вариабельный сегмент легких и тяжелых цепей иммуноглобулина и альфа-, бета-, гамма-цепей T-клеточного рецептора. Соответствует большему участку V_региона и нескольким последним аминокислотным остаткам сигнального пептида.
    9. 3'UTR
    
    3'UTR           10594..10846
    1) Участок 3'-конца зрелого транскрипта (следующего за стоп-кодоном), не транслируемый в белок;
    2) Участок 3'-конца РНК вируса (следующего за последним стоп-кодоном), не транслируемый в белок.
    10. rep_origin
    
    rep_origin      5192..5223
    Ориджин репликации; стартовый сайт дупликации нуклеиновой кислоты.


    Задание 3. Массовый геномный проект "Российские геномы".


    Logo
    В след за иностранными коллегами наши учёные из нескольких российских государственных научных, медицинских и образовательных учреждений, включая Санкт-Петербургский государственный университет, объединили свои усилия для совместных исследований в рамках настоящего проекта. Руководитель проекта - Stephen J. O’Brien, куратор - проректор СпбГУ Брюхин В. Б. Проект финансируется СпбГУ при поддержке Центра геномной биоинформатики им. Ф.Г. Добржанского, который является координатором исследовательского консорциума "Российские геномы". Администрацией Президента Российской Федерации проект «Российские геномы» был одобрен к исполнению на 2015-2018 гг. Финансирование было согласовано и утверждено ректором СПбГУ Н.М. Кропачевым, при содействии проректора и руководителя аппарата ректора И.А. Дементьева.

    Геномные проекты мира

    Обзор мировых публично доступных геномных проектов. A. Карта генетического материала, собранного в рамках проекта "1000 геномов" [6]. Кружками обозначено количество отсеквенированных последовательностей в разных уголках мира. B. Отмечены места исследований в восточном полушарии. С. Основные пути миграций гоминид из Африки. [7]

    Основной целью проекта «Российские геномы» является создание открытой компьютерной базы данных, содержащей анонимную информацию о полногеномных последовательностях 2500 мужчин и женщин из разных регионов России, включая 160 семейных трио (ДНК экземпляры ребёнка и обоих родителей), чьи предки являются коренными жителями данного региона в нескольких поколениях, а также описание вариаций в геноме у этих групп, определение особенностей, влияющих на распространение заболеваний и создание информационной базы медицински-значимых геномных вариантов, характерных для населения России, что станет основой для разработки принципов медицины будущего. Полученные данные затем будут использованы в “1000 genomes project”.

    Исследователи ставят следующие задачи:
  • Обнаружение новых генетических вариантов, которые являются специфическими для определённых российских этнических и региональных групп;
  • Изучение генетических вариантов, влияющих на частоту известных болезней среди российского населения;
  • Получение карты основных гаплотипов (совокупность генов на хромосоме, наследуемых вместе) российского населения, необходимой для идентификации маркеров генов, связанных с наиболее часто встречающимися болезнями среди разных групп россиян;
  • Интерпретация закономерностей вариабильности геномов человека для расшифровки исторических путей миграции и оседлостей человека по всей России и Азии.

  • Исследования по геному человека российских учёныхПубликации по теме проекта


    Задание 4. Таблица митохондриальных генов Thecamonas trahens из Apusozoa.


    Чтобы найти в БД Nucleotide (NCBI) полные митохондриальные геномы указанного таксона было использовано следующее выражение:
    "Apusozoa"[Organism] AND ("complete genome"[title] OR "complete sequence"[title]) 
    AND mitochondrion[title]
    Однако, результатов оказалось всего два - один файл из базы RefSeq (NC_026452.1) и другой из GenBannk (KP165389.1) в силу малой изученности таксона.

    Apusozoa - мелкий тип простейших в основном включающий в себя двужгутиковых скользящих зоофлагеллят, организованных в 2 порядка: Apusomonadida (Karpov and Mylnikov, 1989) и Planomonadida (Cavalier-Smith et al., 2008). Apusomonadida состоит из двух родов: древнего предкового Amastigomonas (по большей части бентосные формы) и высоко организованный и специализированный Apusomonas (только почвенные представители). Для всех описанных апусомонад характерен скользящий тип движения благодаря заднему жгутику. Передний жгутик по результатам электронной микроскопии оказывается окруженным у основания особой цитоплазматической "муфтой". Клетки формируют вентральные псведоподии различной морфологии, с помощью которых захватывают бактерии. На лорсальной стороне у них имеется полужёсткая пелликула, состоящая из 2 тонких, вероятно, белковых слоёв, видимых только в электронный микроскоп. Кристы митохондрий Apusomonada трубчатые, в отличие от Planomonada с пластинчатыми кристами. У последних также отсутствуют псевдоподии, 2-ой белковый слой и цитоплазматические "муфты".

    В морских экосистемах, особенно донных и на поверхностях, погружённых в воду Apusozoa формируют устойчивые зоофлагеллятные сообщества.


    Строение Thecamonas trahens. Клетка длиной около 6-10 мкм. Тонкая жгутиковая акронема выдаётся на 1-3 мкм от переднего мембранного колпачка. Задний жгутик может различаться по длине и ширине, обычно выступает на 1 мкм. Возможно образование 5 мкм филоподии на заднем конце. Может увеличиваться в ширину в 2 раза за счет образования ламеллиподии. Цитоплазма обычно гомогенная, не гранулированная. Ядро в передней части клетки. [8]

    Страница со списком митохондриальных генов доступна по ссылке "Gene" в разделе "Related information". Cписок был отсортирован по порядку расположения генов в геноме ("Sort by Chromosome"). Из 61 гена только 33 оказались белок-кодирующими ("Categories - Protein-coding").

    Митохондриальный геном



    Таблица митохондриальных генов


    Задание 5. Таблица размеров геномов.


    Размеры геномов (п.н.)
    ВироидыВирусыАрхеиБактерииЭукариоты
    Минимальный220 (RYMV, rice yellow mottle sobemovirus) [9] 1760 (PCV, porcine circovirus) [11]491000 (Nanoarchaeum equitans) [12] 580073 (Mycoplasma genitalium)551000 (Guillardia theta) [13]
    Типичный300-350 [10]104106 107Сложно объективно определить среднее значение из-за сильной вариативности (109?)
    Максимальный4672800000 (Pandoravirus salinus)5751000 (Metanosoma acetivorans) 9200000 (Bradhyrhizobium japonicum)670000000000 (Amoeba dubia)


    Источники