Банки данных нуклеотидных последовательностей.
Задание 1. Характеристика качества сборки генома эукариотического организма.
В данном практикуме в качестве объекта исследования был выбран эукариотический организм Tursiops truncatus (bottlenosed dolphin) - афалина или большой/бутылконосый дельфин. Относится к роду Афалины (Tursiops) наряду с индийской афалиной (Tursiops aduncus) и австралийской афалиной (Tursiops australis). [1] По данным NCBI, мозг этого дельфина по объёму больше человеческого, животное обладает высоким уровнем интеллекта. Диплоидный геном афалины содержит 21 пару аутосом и 1 пару половых хромосом. В настоящее время большой дельфин является наиболее хорошо изученным видом. [2]
Распространен в умеренных и теплых водах Мирового океана. В Атлантике живёт от широты Южной Гренландии и Норвегии до Уругвая, Аргентины и Южной Африки, включая
Балтийское, Чёрное, Средиземное, Карибское моря. В Индийском океане обитает от его северных берегов, включая Красное море, на юг до широты Южной Африки, Южной Австралии. В Тихом океане встречается от Японии, Курильской гряды, штата Орегон до Тасмании, Новой Зеландии и Аргентины.
В российских водах встречается в Чёрном море и в значительно меньшей степени — в Балтийском море. На большей части своего ареала афалины образуют две формы: прибрежную
(от 1 до 10 особоей) и открытого моря (1-25 особоей, могут встречаться стада до 500 особей). Они отличаются друг от друга по ряду параметров: размеру тела, промерам
черепа, содержанию гемоглобина и паразитам. В Чёрном море такого разделения нет.![]() ![]() Размножаются афалины в наших водах весной и летом. Беременность афалины продолжается 12 месяцев, а гон от 3—4 дней до нескольких недель. Рожает самка на мелководье, в теплой воде. Обычно рождается один детеныш, очень редко – два. В длину новорожденный обычно 80-140 см. Весит детеныш при рождении 15-30 кг. Сразу после появления на свет самка выталкивает детеныша на поверхность, чтобы он вдохнул воздух. Самка кормит детеныша молоком 18 месяцев. При этом с 6 месяца дельфиненок уже употребляет и твердую пищу. Половозрелыми самки становятся в 5-7 лет, а самцы – в 9-11 лет. Потомство у самки появляется один раз каждые 2-4 года. Афалины живут в естественной среде около 50 лет, в неволе – примерно в 2 раза меньше, даже при соответственном питании. Афалина является объектом CITES (приложение II). В Красную книгу России занесен черноморский подвид (категория 3). В Красной Книге Международного Союза Охраны Природы (IUCN) вид отнесен к категории DD. ![]() |
Сегодня существует только одна (GCA_000151865.3) сборка генома для данного организма – Ttru_1.4. Имеется 5 проектов по секвенированию транскриптома и исследованию экспрессии генов [4], проект RAD sequencing, а также 2 связанных проекта по изучению геномов:
1) PRJNA189944
2) PRJNA20367 (low coverage genome sequencing)
Зарегистрированные 23 сентября 2008 года данные проекты являются частью Dolphin Genome Project медицинского колледжа Бейлора. Реализованы BCM-HGSC совместно с университетом Broad Institute of MIT c целью изучения эволюции морских млекопитающих. Был использован лишь один образец - SAMN00000070 (Sample name: Tursiops truncatus; SRA: SRS000266), взятый у здоровой самки афалины в рамках программы US Navy Marine Mammal Program.
Описание имеющейся сборки Ttru_1.4 | |
---|---|
Образец SAMN00000070 | Название образца: Tursiops truncatus Архив ридов последовательностей: SRS000266 Организм: Tursiops truncatus (афалина) клеточные организмы; эукариоты; заднежгутиковые; многоклеточные; настоящие многолекточные; двусторонне-симметричные; вторичноротые; хордовые; черепные; позвоночные; челюстноротые; четвероногие; амниоты; млекопитающие; звери; плацентарные; бореоэутерии; лавразиотерии; китопарнокопытные; китообразные; зубатые киты; дельфиновые; афалины Аттрибуты: пол женский Описание: Tursiops truncatus геномный образец |
Сборка | Длина последовательности: 2,551,418,184 Общая длина гэпов сборки: 219,423,391 Гэпы между скэффолдами: 0 Число скэффолдов: 240,558 Scaffold N50: 116,287 Scaffold L50: 6,389 Число контигов: 554,228 Contig N50: 11,821 Contig L50: 57,666 Общее число хромосом и плазмид: 1 Таблица контигов Самый длинный контиг: 109820 (ABRN02358710) Самый короткий контиг: 32 (ABRN02306064) Последовательность контига с длиной, примерно равной половине максимального контига: 54915 (ABRN02000046) |
Задание 2. Ключи, используемые в таблицах особенностей.
Анализ последовательностей нуклеиновых кислот играет ключевую роль в изучении строения, физиологии и развития множества генетически разнообразных живых организмов, поэтому известные банки биологических данных - GenBank совместно с EMBL (и позже присоединившийся DDBJ), начиная с 1968 года, разрабатывают единые стандарты для таблиц аннотирования. Так, для чёткого иерархичного представления и описания геномных элементов исследуемого объекта используются специальные таблицы сайтов и особенностей. [5]
Главная цель таблицы особенностей - создание избыточного словаря обозначений, необходимого для удобного ежедневного обмена данными. В документации педставлены правила описания участков,..
Дизайн формата основан на табличном подходе и состоит из приведённых характеристик:
Формат и формулировки таблиц ключей используют общепринятую биологическую терминологию. Например, данное описание может быть прочитано следующим образом:
Key Location/Qualifiers CDS join(544..589,688..>1032) /product="T-cell receptor beta-chain"
Данная область является частично кодирующей последовательностью, образованной благодаря присоединению элементов, формирующих единую непрерывную последовательность, которая, в свою очередь, кодирует бета-цепь так называемого T-клеточного рецептора.
Примеры ключей | ||
---|---|---|
Название, пример | Описание | |
1. iDNA
iDNA 96..261 /note="internal eliminated sequence 1" | Intervening DNA (последовательность интронов); ДНК, которая элиминируется после рекомбинации. | |
2. S_region
S_region 629..4806 /gene="I alpha" /note="alpha switch region" | Сайт переключения (последовательность аминокислот в месте сочленения вариабельных и константных областей цепей иммуноглобулинов); участвует в реорганизации тяжёлых цепей ДНК, вызывающих экспрессию разных классов иммуноглобулинов в B-клетках. | |
3. unsure
unsure 76116..77129 /note="Unresolved tandem repeat." | Маленький участок отсеквенированных оснований, обычно длиной в 10 пар оснований или меньше, который не может быть точно идентифицирован. Он может содержать как, идентифицированные (A, T, G, C), так и не определенные основания ('N'). Ключ не может быть использован при аннотации гэпов в геномных сборках. | |
4. variation
variation 2742 /gene="SLC7A1" /frequency="0.318" /replace="c" | У родственных штаммов в данном гене наблюдаются устойчивые мутации (например, RFLPs, полиморфизмы). Последовательности в данной локации (и, возможно, в других положениях тоже) отличаются от представленной. | |
5. misc_binding
misc_binding complement(242084..242171) /inference="COORDINATES: nucleotide motif:Rfam:12.0:RF00504" /inference="COORDINATES: profile:INFERNAL:1.1.1" /note="glycine riboswitch; Derived by automated computational analysis using gene prediction method: cmsearch." | Сайт в нуклеиновой кислоте, ковалентно или нековалентно связанный c другим фрагментом, который не может быть описан с помощью других ключей (primer_bind or protein_bind). | |
6. stem_loop
stem_loop 998..1069 /gene="MSRB1" /gene_synonym="HSPC270; SELR; SELX; SepR; SEPX1" /note="SECIS_element" | Шпилька; участок двойной спирали, где соединяются две комплементарные последовательности одной и той же цепи (РНК или ДНК), перегибаясь одна к другой и образуя на конце неспаренный участок — петлю. | |
7. STS
STS 406..753 /gene="F54E2.5" /locus_tag="CELE_F54E2.5" /standard_name="F54E2.5" /db_xref="UniSTS:305632" | Sequence tagged site (тэгированный сайт последовательности); короткая, уникальная копия участка последовательности ДНК, которая служит картированной меткой генома и может быть детектирована в процессе ПЦР; участок генома может быть картирован в результате определения серии STS. | |
8. V_segment
V_segment join(361..409,510..856) /gene="LOC108921376" /standard_name="T-cell receptor alpha chain V region RL-5-like" /note="Derived by automated computational analysis using gene prediction method: Gnomon. Supporting evidence includes similarity to: 2 Proteins, and 77% coverage of the annotated genomic feature by RNAseq alignments" /db_xref="GeneID:108921376" | Вариабельный сегмент легких и тяжелых цепей иммуноглобулина и альфа-, бета-, гамма-цепей T-клеточного рецептора. Соответствует большему участку V_региона и нескольким последним аминокислотным остаткам сигнального пептида. | |
9. 3'UTR
3'UTR 10594..10846 | 1) Участок 3'-конца зрелого транскрипта (следующего за стоп-кодоном), не транслируемый в белок; 2) Участок 3'-конца РНК вируса (следующего за последним стоп-кодоном), не транслируемый в белок. | |
10. rep_origin
rep_origin 5192..5223 | Ориджин репликации; стартовый сайт дупликации нуклеиновой кислоты. |
Задание 3. Массовый геномный проект "Российские геномы".
![Logo](rusgenpng.png)
В след за иностранными коллегами наши учёные из нескольких российских государственных научных, медицинских и образовательных учреждений, включая Санкт-Петербургский государственный университет, объединили свои усилия для совместных исследований в рамках настоящего проекта. Руководитель проекта - Stephen J. O’Brien, куратор - проректор СпбГУ Брюхин В. Б. Проект финансируется СпбГУ при поддержке Центра геномной биоинформатики им. Ф.Г. Добржанского, который является координатором исследовательского консорциума "Российские геномы". Администрацией Президента Российской Федерации проект «Российские геномы» был одобрен к исполнению на 2015-2018 гг. Финансирование было согласовано и утверждено ректором СПбГУ Н.М. Кропачевым, при содействии проректора и руководителя аппарата ректора И.А. Дементьева.
![Геномные проекты мира](gen_worldwide.gif)
Обзор мировых публично доступных геномных проектов. A. Карта генетического материала, собранного в рамках проекта "1000 геномов" [6]. Кружками обозначено количество отсеквенированных последовательностей в разных уголках мира. B. Отмечены места исследований в восточном полушарии. С. Основные пути миграций гоминид из Африки. [7]
Основной целью проекта «Российские геномы» является создание открытой компьютерной базы данных, содержащей анонимную информацию о полногеномных последовательностях 2500 мужчин и женщин из разных регионов России, включая 160 семейных трио (ДНК экземпляры ребёнка и обоих родителей), чьи предки являются коренными жителями данного региона в нескольких поколениях, а также описание вариаций в геноме у этих групп, определение особенностей, влияющих на распространение заболеваний и создание информационной базы медицински-значимых геномных вариантов, характерных для населения России, что станет основой для разработки принципов медицины будущего. Полученные данные затем будут использованы в “1000 genomes project”.
Исследователи ставят следующие задачи:
Исследования по геному человека российских учёных | Публикации по теме проекта |
Задание 4. Таблица митохондриальных генов Thecamonas trahens из Apusozoa.
Чтобы найти в БД Nucleotide (NCBI) полные митохондриальные геномы указанного таксона было использовано следующее выражение:
"Apusozoa"[Organism] AND ("complete genome"[title] OR "complete sequence"[title]) AND mitochondrion[title]Однако, результатов оказалось всего два - один файл из базы RefSeq (NC_026452.1) и другой из GenBannk (KP165389.1) в силу малой изученности таксона.
Apusozoa - мелкий тип простейших в основном включающий в себя двужгутиковых скользящих зоофлагеллят,
организованных в 2 порядка: Apusomonadida (Karpov and Mylnikov, 1989) и Planomonadida (Cavalier-Smith et al., 2008). Apusomonadida состоит из двух родов:
древнего предкового Amastigomonas (по большей части бентосные формы) и высоко организованный и специализированный Apusomonas (только почвенные представители).
Для всех описанных апусомонад характерен скользящий тип движения благодаря заднему жгутику. Передний жгутик по результатам электронной микроскопии оказывается окруженным у
основания особой цитоплазматической "муфтой". Клетки формируют вентральные псведоподии различной морфологии, с помощью которых захватывают бактерии. На лорсальной стороне у них имеется
полужёсткая пелликула, состоящая из 2 тонких, вероятно, белковых слоёв, видимых только в электронный микроскоп. Кристы митохондрий Apusomonada трубчатые, в отличие от
Planomonada с пластинчатыми кристами. У последних также отсутствуют псевдоподии, 2-ой белковый слой и цитоплазматические "муфты". В морских экосистемах, особенно донных и на поверхностях, погружённых в воду Apusozoa формируют устойчивые зоофлагеллятные сообщества. ![]() Строение Thecamonas trahens. Клетка длиной около 6-10 мкм. Тонкая жгутиковая акронема выдаётся на 1-3 мкм от переднего мембранного колпачка. Задний жгутик может различаться по длине и ширине, обычно выступает на 1 мкм. Возможно образование 5 мкм филоподии на заднем конце. Может увеличиваться в ширину в 2 раза за счет образования ламеллиподии. Цитоплазма обычно гомогенная, не гранулированная. Ядро в передней части клетки. [8] |
Страница со списком митохондриальных генов доступна по ссылке "Gene" в разделе "Related information". Cписок был отсортирован по порядку расположения генов в геноме ("Sort by Chromosome"). Из 61 гена только 33 оказались белок-кодирующими ("Categories - Protein-coding").
Митохондриальный геном
![](MTC_genome.png)
Таблица митохондриальных генов |
Задание 5. Таблица размеров геномов.
Размеры геномов (п.н.) | |||||
---|---|---|---|---|---|
Вироиды | Вирусы | Археи | Бактерии | Эукариоты | |
Минимальный | 220 (RYMV, rice yellow mottle sobemovirus) [9] | 1760 (PCV, porcine circovirus) [11] | 491000 (Nanoarchaeum equitans) [12] | 580073 (Mycoplasma genitalium) | 551000 (Guillardia theta) [13] |
Типичный | 300-350 [10] | 104 | 106 | 107 | Сложно объективно определить среднее значение из-за сильной вариативности (109?) |
Максимальный | 467 | 2800000 (Pandoravirus salinus) | 5751000 (Metanosoma acetivorans) | 9200000 (Bradhyrhizobium japonicum) | 670000000000 (Amoeba dubia) |
Источники
- [1] Wikipedia: Tursiops truncatus (Афалина)
- [2] NCBI: Tursiops truncatus
- [3] Delphinidae: Афалина
- [4] NCBI: Tursiops truncatus BioProjects
- [5] The DDBJ/ENA/GenBank Feature Table Definition
- [6] Auton A, Abecasis GR. and The 1000 Genomes Consortium. Global reference for human geneti variation. Nature. 2015;526:68–74.
- [7] Stewart JB, Chinnery PF. The dynamics of mitochondrial DNA heteroplasmy: implications for human health and disease. Nat Rev Genet. 2015;16(9):530–42.
- [8] Thomas Cavalier-Smith, Ema E. Chao. Phylogeny and Evolution of Apusomonadida (Protozoa: Apusozoa): New Genera and Species. Protist: Volume 161, Issue 4, October 2010.
- [9] Wikipedia: Viroid
- [10] Wikipedia: Вироиды
- [11] How big are viruses?
- [12] Н.В. Равин, С.В. Шестаков. Геном прокариот. Вавиловский журнал генетики и селекции, 2013, том 17, № 4/2
- [13] Wikipedia: Smallest organisms