Нуклеотидные банки данных

Часть I.

Задание 1. Для выполнения задания был выбран вид Mus musculus (мышь домовая). Поиск по NCBI Genome дал 7 результатов (сборок генома); в дальнейшем для анализа использовалась сборка GCF_000002165.2, так как для наиболее полной сборки отсутствует список контигов.

На данный момент существует 7 проектов по секвенированию генома и 5 образцов.

Для вышеуказанной сборки были получены следующие значения:

  • Образец: SAMN03004379 - смешанный образец из следующих пород домовой мыши: 129X1/SvJ, 129S1/SvImJ, DBA/2J и A/J.
  • Проект: PRJNA11785 - работа Celera Genomics по секвенированию генома мыши с использованием метода шотган-секвенирования. ID проекта - 11785. Геном мыши был секвенирован и аннотирован в рамках исследования эволюции различных видов млекопитающих. Полученная сборка генома была размещена в Genbank с WGS project accession AAHY00000000


    Рис.1: данные проекта

  • Для данной сборки найдено 182,428 контигов и 13,033 скэффолдов
  • Таблица контигов: AAHY00000000.1
  • Для контигов: N50 = 28258, L50 = 24837; Самый длинный контиг - AAHY01067327; Самый короткий контиг - AAHY01767520.
  • Для скэффолдов: N50 = 34874695, L50 = 24.


    Рис.2: Полная статистика по сборке

Задание 2. Для выданного мха - Ptychomnion cygnisetum - был составлен запрос в БД Nucleotide (NCBI): Ptychomnion cygnisetum[ORGN] AND mitochondrion complete genome; результат - запись с последовательностью генома; AC записи - NC_024514.
По ссылке Gene был получен список всех генов, впоследствии сохранённый в формате xlsx: Ссылка.

В митохондриальном геноме данного мха 67 генов, в их числе 39 генов, кодирующих белки, 3 - rRNA, 24 - tRNA и один псевдоген:

Рис.3: Информация о митохондриальном геноме

Внешний вид мха представлен на рисунках 4 и 5.
Рис. 4.
Рис. 5.

Задание 3.

Таблица 1. Десять ключей, используемых в таблицах особенностей.
Ключ Описание Пример
CDS Кодирующая последовательность и транслированная с нее последовательность белка
1658..2059
                     /gene="aadA1"
                     /note="confers resistance to streptomycin and
                     spectinomycin; truncated"
                     /codon_start=1
                     /transl_table=11
                     /product="AADA1a aminoglycosides adenylyltransferase"
                     /protein_id="AKB96553.1"
                     /db_xref="GI:806639050"
                     /translation="MAILLTKAREHSVALVGPAAEELFDPVPEQDLFEALNETLTLWN
                     SPPDWAGDERNVVLTLSRIWYSAVTGKIAPKDVAADWAMERLPAQYQPVILEARQAYL
                     GQEEDRLASRADQLEEFVHYVKGEITKVVGK"
misc_feature Интересная область, не попадающая под определение других ключей.
2115..3403
                     /note="3' Conserved Segment of class 1 integrons; 3'CS"
misc_recomb Участки, вставленные в геном или удалённые из генома в результате рекомбинации.
 2061..2114
                     /note="attC; IntI-type integrase recombination site;
                     truncated; attC of aadA1; truncated"
regulatory Участок ДНК, принимающий участие в регуляции транскрипции или трансляции.
complement(88..93)
                     /regulatory_class="minus_10_signal"
                     /note="Pc promoter"
mobile_element Последовательность, содержащая мобильные элементы.
complement(799..1618)
                     /rpt_type=inverted
                     /mobile_element_type="insertion sequence:IS26"
repeat_region Последовательность с повторяющимися элементами.
complement(799..812)
                     /note="IRR of IS26"
misc_structure Последовательность, у которой существует вторичная или третичная структура.
24
                     /note="n is modified as (NNK)9-12, in which N can be A, T,
                     G, or C and K can be Tor G."
D-loop Петля смещения; область в пределах митохондриальной ДНК, в                  которой короткий отрезок РНК спаривается с одной цепью                  ДНК, замещая цепь исходного партнера в ДНК                  в этом регионе; Так же описывает замещение одной цепи дуплекса ДНК на другую цепь в реакции, катализируемой белком RecA.
15654..16529
                     /note="control region"
rep_origin Ориджин репликации - фрагмент молекулы нуклеиновой кислоты, с которого начинается её репликация.
5297..5332
                     /note="putative light strand origin of replication"
exon Регион генома, кодирующий мРНК, рРНК или тРНК. Может содержать 5'UTR, всю кодирующую область, 3' UTR.
101..1279
                     /gene="ARL4AP1"
                     /gene_synonym="ARL4B; ARL4P"
                     /inference="alignment:Splign::RefSeq|NM_212460.3"
                     /pseudo
Часть II.

Задание 4. (Изначально было приведено в практикуме 8, частью которого является): Практикум "Нуклеотидный blast"

С помощью нуклеотидного BLAST'а (BLASTN) была предпринята попытка установить, какому гену какого организма принадлежит последовательность, полученная в практикуме 6.

Результат выглядит так:

Рис.1. Результат работы blastn

Как можно заметить, довольно большое количество полученных последовательностей имеют высокую степень сходства и исходной (E-value=0.0, уровень сходства 97-98%), но наиболее подходящими являются первые два результата (наивысший score). Следовательно, полученная в практикуме 6 последовательность, вероятнее всего, является геном 18S рибосомальной РНК лентеца Diphyllobothrium nihonkaiense (он же D. klebanovskii) - уровень сходства 98%, Query cover 99%, score 1348.

Ближайшая находка из другого вида того же рода - Diphyllobothrium latum 18S ribosomal RNA gene, complete sequence: уровень сходства 97%, Query cover 99%, score 1344.

Выравнивание лучших 10 находок с исходной последовательностью представлено здесь.




Назад к странице семестров

© Andrew Sigorskih,2015.