Поиск гомологов некодирующей нуклеотидной последовательности.

Задача этого занятия  — выбрать одну из тРНК кишечной палочки (Escherichia coli K-12) и найти наиболее похожую на нее последовательность в геноме архебактериии.
Заданный мне белок - KAD_ECOLI. Изучив его последовательность, видно, что на четвёртой позиции находится аминокислотный остаток изолейцина(I).Определим соответствующий ему кодон в гене (ген был получен при выполнении второго упражнения из второго занятия "Банк EMBL" ) - X03038_gene1.fasta. Занесём полученные данные в таблицу.

Таблица 1. Выбор тРНК

Аминокислотный остаток в 4-ой позиции белка KAD_ECOLI I (Изолейцин)
Соответствующий кодон в гене KAD 5'-AUU-3'
 Идеальный антикодон 5'-AAU-3'
 Сколько можно было бы ожидать разных тРНК для остатка изолейцина
(если опираться на генетический код)?
3
Сколько тРНК для остатка I аннотировано в геноме кишечной палочки? 2
 Характеристика выбранной для дальнейшего изучения тРНК:
название гена ileV
координаты гена в записи EMBL 225381-225457(прямая цепь)
антикодон 5'-GAU-3'
В кодоне вырожденной позицией является последняя буква U и в соответствии с таблицей стандартного генетического кода на её месте могут быть как C, так и A. Для того, чтобы определить сколько тРНК для данного аминокислотного остатка имеется в геноме E.coli по данным записи EMBL, описывающей полный геном E.coli K-12,   воспользуемся командой grep. Найдём с её помощью в записи ecoli.embl строчки, в которых одновременно, но не подряд, встречаются слово anticodon и трёхбуквенное обозначение нужной аминокислоты изолейцин и перенаправим вывод в файл с расширением txt.
grep -n "anticodon.*ile" ecoli.embl > tRNAs.txt
Чисто теоретически можно ожидать существования трёх разных тРНК для остатка изолейцина, так как на место вырожденной позиции в кодоне могут встать 3 различных нуклеотида, а, значит,  возможны три различных молекулы, специфически связывающихся с этими кодонами. Однако на самом деле, как можно понять из получившегося файла tRNAs.txt, в данной записи EMBL присутствуют всего два вида тРНК для остатка изолейцина. Почему так происходит? Дело в том, что некоторые молекулы тРНК могут узнавать несколько кодонов, которые, конечно, должны представлять одну и ту же аминокислоту. Это достигается за счёт так называемого механизма неоднозначного соответствия, когда только двум (а не трем) нуклеотидам триплетов иРНК необходимо точное спаривание c антикодоновой парой нуклеотидов тРНК, а по третьему нуклеотиду природой допускается неверное спаривание, так называемое “воблирование” (от англ. слова “wobble”- качание) по гипотезе Ф.Крика. Это означает, что некоторые антикодоны могут “узнавать” более одного кодона в зависимости от того, какое основание находится в 1-м положении антикодона, соответствующем 3-му положению нуклеотида с учетом их антипараллельного комплементарного взаимодействия.
Поскольку в данной записи EMBL присутствуют три тРНК, более-менее удовлетворяющие условию задания, то есть тех, которые "идеально подходят" в нашем случае (как по кодону, так и по антикодону) нет,но есть различающиеся всего в одной букве в кодоне (в антикодоне все одинаково отличны от "идеальных"), поэтому выберем для изучения самую первую. Найдём её в предложенной нам записи EMBL, открыв её в Far Manager. Найдём нужную строчку простым поиском, а поскольку благодоря опции -n команды grep мы знаем нужный номер строки, легко проверить, что находка является искомой.
FT   tRNA            225381..225457
FT                   /gene="ileV"
FT                   /locus_tag="b0202"
FT                   /product="tRNA-Ile"
FT                   /anticodon=(pos:225415..225417,aa:Ile)
FT                   /note="codons recognized: AUY; anticodon: GAU isoleucine
FT                   tRNA1; go_component: cytoplasm [goid 0005737]; go_process:
FT                   tRNA metabolism [goid 0006399]"
 
Внесём полученную информацию в таблицу выше. При этом координаты гена в записи EMBL будем искать по названию гена в этой записи.
В соответствии с общепринятыми однобуквенными обозначениями для стандартных азотистых оснований буква Y означает  C или T или U.
Теперь мы знаем координаты выбранной  изолейциновой тРНК: с 225381 по 225457. Получим её последовательность в виде отдельного файла программой seqret:
seqret ecoli.embl -sask
Reads and writes (returns) sequences
Begin at position [start]: 225381
End at position [end]: 225457
Reverse strand [N]: n
output sequence(s) [u00096.fasta]: IletRNA.fasta
 Таким образом, получили последовательность интересующей нас изолейциновой тРНК в формате fasta.
  • Поиск гомологичных тРНК в геноме архебактерии.

Суть задания заключается в том, чтобы найти в геноме архебактерии последовательность, наиболее похожую на отобранную в предыдущем упражнении последовательность тРНК из E.coli.
Группе 202 задана бактерия Pyrococcus furiosus. Эта бактерия известна тем, что оптимальная температура роста для неё - 100ºC (температура, которая является смертельной для большинства живых организмов). Также, это один из немногих организмов, ферменты которого содержат вольфрам - вещество, редко встречающееся в биологических молекулах.
Источник: http://en.wikipedia.org/wiki/Pyrococcus_furiosus.

Поиск надо провести с помощью 4-х разных программ, предназначенных для быстрого поиска сходных нуклеотидных последовательностей.

a. Поиск с помощью BLASTN.

Для создания индексных файлов использовалась команда:
formatdb -i pf_genome.fasta -p F -n pf
 Как и в прошлом занятии пользуемся командой blastall:
blastall -p blastn -d pf -i IletRNA.fasta -o blastn.txt -e 0.001
Заметим, что программа BLASTN не выдала ничего. Возможно, параметры слишком чувствительны, поэтому программа BLASTN не годится для решения подобных задач.

b. Поиск с помощью MegaBLAST.


Отдельно создавать индексные файлы не понадобилось поскольку эта программа может использовать те же индексные файлы, что и blastall
megablast -d pf -i IletRNA.fasta -D 2 -o megablast.txt
Благодаря параметру -D со значение 2 получаем "традиционную" выдачу программы BLAST. Данная программа тоже ничего не выдала.

c. Поиск с помощью discontiguous MegaBLAST

Discontiguous MegaBLAST отличается от MegaBLAST наличием параметров -t,-W,-N, причём -t может быть равен 16,18 или 21, -W может быть равен 11 или 12, а -N принимает значения 0,1,2 в соответствии с инструкцией по запуску megablast. Я запустила программу со следующими параметрами:
megablast -d pf -i IletRNA.fasta -D 2 -N 0 -W 11 -t 16 -o dismegablast.txt
Данная программа тоже ничего не выдала.

d. Поиск с помощью FastA.

Используем программу fasta35.
fasta35 IletRNA.fasta pf_genome.fasta 6 -o fasta.txt
Параметры выбирались по умолчанию. Более подробно о том, какие параметры были заданы и какие вопросы задавала программа см. отчёт. Получившийся файл - fastA.txt.

Таблица 2. Поиск в геноме Pyrococcus furiosus последовательностей, сходных с  изолейциновой тРНК E.coli

Программа BLASTN MegaBLAST Discontigous
MegaBLAST
FastA
Число находок с Е-value < 0,001 0 0 0 0
Характеристика лучшей находки:
E-value находки нет нет нет 0.038
Номер сектора генома нет нет нет section 73
AC соответствующей записи EMBL нет нет нет AE010198
координаты выравнивания(-ий) в записи EMBL нет нет нет 2457-2533
Аннотация лучшей находки по EMBL
(не аннотирована, аннотирована как тоже
<аланиновая> тРНК, как другая тРНК etc.)
нет нет нет изолейциновая тРНК
антикодон -5'- GAT-3'
Была получена запись EMBL для лучшей находки программы fasta35 при помощи команды на kodomo-count:
entret embl:AE010198 -auto
Получился файл ae010198.entret. Изучаем этот файл. В строке DE находим информацию о номере сектора генома - section 73. Таким же образом находим информацию о том, какая это тРНК. Подробнее см.отчёт.

Вывод:

Итак, была найдена только одна гомологичная изолейциновая тРНК в геноме архебактерии Pyrococcus furiosus, однако значение e-value для этой находки довольно высокое, что, в принципе, не очень хороший признак и может говорить о том, что тРНК не такие уж и гомологичные.
Классификация для Escherichia coli Классификация для Pyrococcus furiosus
Superdomain: Phylogenetica
Phylum: Proteobacteria
Class: Gamma Proteobacteria
Order: Enterobacteriales
Family: Enterobacteriaceae
Genus: Escherichia
Species: E. coli
Domain: Archaea
Phylum: Euryarchaeota
Class: Thermococci
Order: Thermococcales
Family: Thermococcaceae
Genus: Pyrococcus
Species: P. furiosus
Как видно виды, тРНК которых изучались, не очень родственны. Так что и ожидать какого-то сильного сходства не стоило. Хотя, с другой стороны, тРНК - это те молекулы, которые за счёт выполняемых ими функций должны сохранять большое сходство хотя бы среди прокариотических организмов. Так, например, большинство рецепторов даже среди очень разных видов имеют большой процент идентичности как раз за счёт выполняемых ими функций.

Протокол к занятию.



Главная  Первый семестр  Второй семестр  Третий семестр