В данном практикуме ответы на поставленные вопросы отправлялись в google-формах, однако на этой странице Вы можете ознакомиться с ними и получить дополнительные комментарии.

Качество сборки генома эукариотического организма

Рис. 1. Arabidopsis thaliana [1].

Для выполнения этого задния был выбран организм - Arabidopsis thaliana - резуховидка Таля, растение, вид рода резуховидка (Arabidopsis) семейства капустные (Brassicaceae). В связи с относительно коротким циклом развития является удобным модельным организмом в молекулярно-биологических, генетических и физиологических исследованиях, где известна под транслитерацией родового латинского названия — арабидопсис [1].
Затем в базе данных NCBI Genome был выполнен поиск по организму, и получена таблица с 10 сборками генома, из которой была выбрана вторая сборка, так как для неё был указан WGS project, она характеризовалась наибольшей полнотой и включала в себя последовательность 5 хромосом. По результатам поиска также было обнаружено, что секвенирование данного организма проводилось в рамках 7 проектов и использовались 10 биообразцов. Информация о биообразце выбранной сборки генома представлена в Таблице 1, с комментариями и пояснениями, ознакомиться с ней можно по этой ссылке.

Таблица 1. BIOSAMPLE Arabidopsis thaliana.
Ключ
Информация с NCBI
Пояснение
Identifiers
BioSample: SAMN04457953; Sample name: ATLer; SRA: SRS1281678
Название образца, из которого получена ДНК
Organism
Arabidopsis thaliana (thale cress)
cellular organisms; Eukaryota; Viridiplantae; Streptophyta; Streptophytina; Embryophyta; Tracheophyta; Euphyllophyta; Spermatophyta; Magnoliophyta; Mesangiospermae; eudicotyledons; Gunneridae; Pentapetalae; rosids; malvids; Brassicales; Brassicaceae; Camelineae; Arabidopsis
Организм и его систематическое положение
Package
Plant; version 1.0
Раздел
Attributes
  1. ecotype - Landsberg erecta
  2. development stage - adult
  3. geographic location - Germany
  4. tissue - leaf
  1. Растительная линия
  2. Стадия развития
  3. Локализация
  4. Ткань, из которой получен образец
BioProject
PRJNA311266 Arabidopsis thaliana
PRJNA311017 Arabidopsis thaliana
Название проектов, в рамках которых использовался данный образец
Submission
Center for genomic Regulation, Luis Zapata; 2016-02-05
Где и когда был секвенирован и представлен для общего пользования

По этой ссылке Вы можете ознакомиться с данными, представленными в Bioproject для выбранной сборки. Здесь представлены детали секвенирования, идентификационный номер проекта, тип данных (то есть геномное секвенирование), организм, место и дата регистрации секвенирования, публикации, ссылки в базы данных и указание локуса.

В Таблице 2 приведена некоторая информация, характеризующая данную сборку.

Таблица 2. Данные о сборке генома Thermus aquaticus.
Способ секвенирования
Illumina; PacBio
Площадь покрытия
141.0x
Число контигов
525
Число скэффолдов
30
N50
1,193,183
L50
27

По этой ссылке Вы можете ознакомиться с таблицей контигов – секвенированых без пропусков фрагментов ДНК. А здесь найдёте последовательность одного из контигов.

Ключи таблиц особенностей

В записи NCBI существуют таблицы особенностей, где указываются различные особенности приведенной последовательности, и в Таблице 3 собраны самые частые и некоторые интересные ключи из неё.

Таблица 3. Ключи таблицы особенностей NCBI.
Ключ: название (англ.)
Ключ: понятное описание (рус.)
Пример из записи
repeat_region
Повторяющаяся область в геноме (перекрестный повтор), которая встречаются в нескольких экземплярах по всему геному.
Mycobacterium tuberculosis,
repeat_region complement(23173..23273)
                   /note="101 bp Mycobacterial Interspersed Repetitive
                   Unit,Class I. See Supply et al. (1997) Molecular
                   Microbiology 26, 991-1003" 
mobile_element
Мобильные генетические элементы являются последовательностями ДНК, которые могут перемещаться внутри генома. К ним относятся различные элементы генома, которые отличаются между собой по перемещению и строению.
Mycobacterium tuberculosis,
mobile_element  832352..832868
                     /note="IS1557'-1, len: 517 nt. Region similar to Insertion
                     sequence IS1557 on MTCY373- (IS1557- 1st copy). This
                     region is a possible MT-complex-specific genomic island
                     (See Becq et al., 2007)."
gene
Ген - структурная и функциональная единица наследственности живых организмов [2]. Указаны его координаты в геноме, его локус и дана ссылка на последовательность.
Mycobacterium tuberculosis,
gene            19361..20083
                     /locus_tag="BFp0027"
                     /db_xref="GeneID:3021406" 
CDS
Кодирующая последовательность, которая транслируется с обозначенного участка генома.
Bacteroides fragilis,
CDS complement(2149006..2150274)
    /gene="nanT"
    /locus_tag="Rv1902c"
    /inference="protein motif:PROSITE:PS00217"
    /codon_start=1
    /transl_table=11
    /product="sialic acid-transport integral membrane protein
    NanT"
    /protein_id="NP_216418.1"
    /db_xref="GeneID:885057"
regulatory
Участок в геноме, с которым способны связываться белки, участвующие каким-либо образом в регуляции транскрипции, трансляции или репликации. Например, таким участком может быть сайт посадки рибосомы.
Listeria monocytogenes,
regulatory      305..310
                     /regulatory_class="ribosome_binding_site"
operon
Оперон - участок последовательности прокариот, в состав которого может входить несколько кодирующих последовательностей совместно работающих белков, объединенных одним промотором.
Listeria monocytogenes,
operon          318..3012
                     /operon="Operon_001"
                     /experiment="EXISTENCE:[PMID:19448609]"
rep_origin
Ориджин репликации - участок последовательности прокариотической плазмиды, с которого начинается её репликация.
Yersinia pestis,
rep_origin      complement(70063..70336)
                /note="similar to Escherichia coli F plasmid RepF1b region
                found in GenBank Accession Number M26308"

Массовый геномный проект

Рис. 2. GGI logo [3].

Для выполнения данного задания был выбран массовый геномный проект, который на данный момент (2017 год) всё ещё продолжает действовать. The Global Genome Initiative (GGI) - всемирная геномная инициатива. Этот проект представляет собой научный проект, направленный на увеличение знаний о геномном биоразнообразии Земли, поддержании его в естественных условиях по всему миру и обеспечение доступным биоматериалом исследователей через Всемирную сеть биоразнообразия генома, передачу своих знаний о биразнообразии будущему поколению и уточнение систематического положения различных видов. Местом, в котором зародилась эта идея считаются США, а именно: Smithsonian Institute for Biodiversity Genomics (совместно с другими институтами и партнерами), началом является 2014 год. К 2020 году планируется добавить в коллекцию и сделать доступным, по крайней мере, по одному виду из каждого из 10000 семейств и по каждому виду, как минимум, из половины родов (200000). На сегодняшний день, секвенировано - 605607 образцов. По этой ссылке Вы можете ознакомиться с одной из последних публикаций по проекту.

Митохондриальные гены

В данном задании выбран для анилиза был Ricinus communis, или клещевина обыкноченная - масличное, лекарственное и декоративное садовое растение. Во многом интересное для науки из-за того, что в семенном ядре содержится 17% белком, в том числе токсальбумин рицин - чрезвычайно ядовитое вещество, но помимо этого все части растения содержат рицин и ядовиты для человека и животных [5]. А затем с помощью базы данных Nucleotide (NCBI) были найдены митохондриальные геномы по такому запросу: (((((((( "complete sequence"[Title]) OR "complete genome"[Title]) AND "refseq"[Keyword]) AND "mitochondrion"[Filter])) AND "ricinus communis"[Title]))) В Таблице 4 собрана некоторая информация об этом поиске.

Рис. 3. Ricinus communis [4].

Таблица 4. Данные о поиске митохондриального генома Ricinus communis.
Систематическое положение
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; Gunneridae; Pentapetalae; rosids; fabids; Malpighiales; Euphorbiaceae; Acalyphoideae; Acalypheae; Ricinus.
Число находок
1
АС
NC_015141
Число п. н. в митохондриальном геноме
502773
Число генов белков
60
Число генов РНК
23

А также с помощью программы Excel была создана таблица генов белков, закодированных в митохондриальном геноме, информация о котором найдена на NCBI. Ознакомиться с ней можно в файле gene_result.xlsx.

Размеры геномов

В Таблице 5 представлена информация о размерах генов различных организмов. Данные получены с помощью поиска организмов по базе данных NCBI. С помощью программы Excel (СРЗНАЧ) были подсчитаны средние (типичные) значения.

Таблица 5. Размеры геномов.
Организм
Минимальный (bp)
Типичный (bp)
Максимальный (bp)
Вироиды
246 (ss-RNA, Coconut cadang-cadang viroid)
336
434 (RNA, Apple hammerhead viroid-like circular RNA)
Вирусы
220 (Rice yellow mottle virus satellite)
1000000
2473870 (Pandoravirus salinus)
Неклассифицированные бактериофаги
18855 (Mycoplasma phage phiMFV1)
67461
241147 (Erwinia phage vB_EamM_Caitlin)
Бактерии
104827 (Cloacimonetes bacterium JGI 0000039-I11)
10 млн
68 млн (Planktothrix paucivesiculata)
Археи
6.5 млн (uncultured marine crenarchaeote 'Gulf of Maine')
3 млн
137797 (candidate divison MSBL1 archaeon SCGC-AAA385M02)
Эукариоты
245805 (Amana erythronioides)
100-1000 млн
27602.7 млн (Pinus lambertiana)

Было замечено, что наибольшими по размеру геномами обладают растения, а наименьшими вироиды, как организмы, представленные лишь молекулами РНК такие значения закономерны. Бактерии обладают большими геномами по сравнению с археями, которые в свою очередь больше, чем геномы вирусов.

Источники:

[1] Arabidopsis thaliana - wikipedia
[2] Ген, определение
[3] GGI logotype
[4] Ricinus communis
[5] Статья о клещевине обыкновенной