Банки нуклеотидных последовательностей

Задание 1.

Для выполнения заданий данного практикума я выбрал организм - Danio rerio.
 
 
Эта небольшая рыбка - известный модельный организм для изучения биологии развития и генетики.
 
Данные выдачи БД Genome, Browse by organism:  
Для выполнения дальнейших заданий было необходимо выбрать одну из сборок генома, желательно - максимально полную. Но для самой полной сборки (статус "Chromosome") отсутствует таблица контигов (в таблице выдачи в столбце WGS ничего нет). Поэтому я выбрал следующую за ней сборку со статусом "Scaffold".
 
Описание образца:
 
Описание проекта:
 
Данные по сборке:

Посчитать N50 самому совсем несложно. Для этого достаточно взять таблицу контигов, используя MS Excel отсортировать контиги по длине (от максимального к минимальным) и воспользоваться возможностями экселя. Я посчитал сумму длин всех контигов, поделил её на 2 (столбец L - "1/2 Sum all"), для каждого контига посчитал сумму этого контига и суммы всех предыдущих (столбец K - "Sum step"), затем написал во второй ячейке столбца M ("N50") формулу: =ЕСЛИ(K2<$L$2;"LESS";"MORE"). Таким образом, первый контиг, обозначенный словом "MORE", и будет тем, длина которого и есть N50. Правда, значение N50, посчитанное мной, и значение, представленное на сайте, различны - 24935 и 24925 соответственно. Также стоит отметить, что есть сразу несколько контигов, имеющих эти длины (3 контига длиной 24935 и 2 длиной 24925 нуклеотидов).
Таблица контигов, использованная для рассчёта N50.
 

Задание 2.

Для выполнения этого задания мне был выдан вид мха Anomodon rugelii - Аномодон Ругеля.
 
Цель задания - составить таблицу митохондриальных генов мха. Для этого в базе данных Nucleotide (NCBI) я составил запрос: Anomodon rugelii[ORGN] AND Mitochondrion[Filter]. Результатом стали две записи, которые были выложены одними и теми же исследователями с разницей в три дня. Для дальнейшей работы я использовал более позднюю запись, которая, к тому же, относилась к БД RefSeq. Открыв данную запись и перейд по ссылке "Genome" в колонке "Reference Information" я получил общую таблицу митохондриальных генов.
 
Данные по таблице:
 
Если же в колонке "Reference Information" перейти по ссылке "Gene", то откроется страница с информацией о генах (web-страница). Таблицу с генами я сохранил в отдельном файле.  

Задание 3.

Ключи, используемые в таблицах особенностей, я нашёл на сайте INSDC, перейдя по ссылке в нижней части главной страницы ("The INSDC Feature Table Definition Document is available here."). Список ключей приведён в разделе 7.2 Appendix II: Feature keys reference.
 
Ключи, используемые в таблицах особенностей
Ключ Описание Пример
CDS Кодирующая последовательность; последовательность нуклеотидов, соответствующая аминокислотной последовательности белка
CDS             join(<1..89,193..263,389..420,481..639,698..>736)
                /gene="cytC"
                /codon_start=1
                /product="cytC"
                /protein_id="AIJ50606.1"
                /db_xref="GI:672718494"
                /translation="HTLIFPFLQCPRFTLIGTCHHSLRNCGVFSWYRNRRISSSQFKI
                FSNRCLPFPRDAKKGAKLFQTRCAQCHTVESGGPHKVGPNLHGLFGRKTGSAEGYAYT
                DANKQAGVTWDENTLFSYLENPKKFIPG"
centromere Область, где экспериментально была доказана принаждежность к центромере - участку ДНК, где связаны сестринские хроматиды и находится кинетохор
centromere      555957..556073
                /note="CEN16; Chromosome XVI centromere"
                /db_xref="SGD:S000006477"
D-loop Петля смещения - область в митохондриальной ДНК, в которой короткая РНК взаимодействует с одной цепью ДНК, отстраняя комплементарную вторую цепь. Так же описывает замещение одной цепи дуплекса ДНК на другую цепь в реакции, катализируемой белком RecA
D-loop          15424..16300
                /note="control region"
intron Участок ДНК, который после транскрипции вырезается из транскрипта
intron          <1..>340
                /note="J1-C intron"
sig_peptide Сигнальный пептид на N-конце последовательности
sig_peptide     23..79
                /gene="YM-1"
C_region Неизменяемый участок лёгких и тяжёлых цепей иммуноглобулинов, а также альфа-, бэта- и гамма-цепей Т-клеточного рецептора
C_region        394..399
                /gene="TCR1A" 
mat_peptide Последовательность зрелого пептида или белка
mat_peptide     55..399
                /gene="TCR1A"
                /product="T-cell receptor alpha chain"
polyA_site Участок, кодирующий те места РНК, куда добавятся остатки аденина вследствие посттранскрипционного полиаденилирования
polyA_site      173
                /gene="294"
rep_origin Ориджин репликации
rep_origin      5160..5191
                /note="L-strand origin of replication"
stem_loop Шпилька
stem_loop       505..520
                /gene="H4"
                /note="terminator"
 

Задание 4.

В данном задании было необходимо установить принадлежность последовательности, полученной в Практикуме 6, определённому гену с помощью blastn. Поиск производился по банку nr, использовался параметр " samewhat similar sequences". Часть объектов выдачи можно увидеть на скриншоте:
 
Первые две находки относятся к виду Brada inhabilis (многощетинковый червь), с 99% и 93% идентичностью. Скорее всего, искомая последовательность также является геном гистона Н3 данного вида.
 
Систематическое положение Brada inhabilis

 
Внешний вид Brada inhabilis
 
Для дальнейшей работы я выбрал первые 6 последовательностей, после чего скачал их с ресупса BLAST и выровнял каждую с "моей" последовательностью с помощью алгоритма Needle.
 
Выравнивание последовательности KJ530683.1 с "моей" последовательностью

 
Выравнивание последовательности KJ530681.1 с "моей" последовательностью

 
Выравнивание последовательности KP113548.1 с "моей" последовательностью

 
Выравнивание последовательности KP113546.1 с "моей" последовательностью

 
Выравнивание последовательности HM746760.1 с "моей" последовательностью

 
Выравнивание последовательности KP113643.1 с "моей" последовательностью

 
Вывод: "моя" последовательность - часть последовательности гена гистона Н3 организма Brada inhabilis.
 
В лучшей находке для у Brada inhabilis примерно 1 замена на 100 нуклеотидов.
 
В лучшей находке, принадлежащей гарантированно другому виду, примерно 8 замен на 100 нуклеотидов.
 
 
 

Ссылка на главную страницу


© Головачев Ярослав