Занятие 4. Поиск гомологов некодирующей нуклеотидной последовательности

Таблица 1. Выбор тРНК

 Аминокислотный остаток в 4-ой позиции белка KPYK1_ECOLI

Thr

 Соответствующий кодон в гене pykF

5'-ACC-3'

 Идеальный антикодон

5'-GGU-3'

 Сколько можно было бы ожидать разных тРНК для остатка T
(если опираться на генетический код)?

4

 Сколько тРНК для остатка T аннотировано в геноме кишечной палочки?

4

 Характеристика выбранной для дальнейшего изучения тРНК:

 

название гена

thrV

 

координаты гена в записи EMBL

3421602…3421677

 

антикодон

GGU

Известно, что количество тРНК значительно меньше, чем количество смысловых кодонов. Это связано с тем, что тРНК одного типа может узнавать несколько кодонов в случае, если первые 2 нуклеотида кодона совпадают со вторым и третьим нуклеотидами антикодона. А третий нуклеотид кодона, являющийся вырожденным, не обязательно совпадет с третьим нуклеотидом антикодона. Такая неоднозначность компенсируется тем, что генетический код вырожден и одну аминокислоту чаще всего кодирует триплет с различающимся третьим нуклеотидом.

Команда, использованная для поиска всех треониновых тРНК в геноме:

grepanticodon.*threonineecoli.embl > thr

Результат поиска тРНК:

6073:FT                   /note="codon recognized: ACG; anticodon: CGU threonine

77177:FT                   /note="codons recognized: ACY; anticodon: GGU threonine

93943:FT                   /note="codons recognized: ACD; anticodon: UGU threonine

93979:FT                   /note="codons recognized: ACY; anticodon: GGU threonine

Как видно, распозналось три типа кодонов вместо четырех: ACG, ACY, ACD вместо ACC, ACG, ACU, ACA.

Последовательность гена thrV извлекали из генома E.coli командой:

seqret ecoli.embl -sask

далее отвечали на запросы программы:

Begin at position [start]: 3421602

End at position [end]: 3421677

Reverse strand [N]: n

output sequence(s) [u00096.fasta]: thrV.fasta

Поиск гомологичных тРНК в геноме архебактерии

Таблица 2. Поиск в геноме Pyrococcus furiosus последовательностей, сходных с  треониновой  тРНК E.coli

Программа

FastA

BLASTN

MegaBLAST

Discontigous
MegaBLAST

Число находок с Е-value < 0,001

3

0

 -

-

Характеристика лучшей находки:

 

E-value находки

3.6е-05

5.9

-

-

 

Номер сектора генома

52

164

-

-

 

AC соответствующей записи EMBL

AE010257

AE010289

-

-

 

координаты выравнивания(-ий) в записи EMBL

9586…9637

9981…9992

-

-

Аннотация лучшей находки по EMBL
(не аннотирована, аннотирована как тоже
треониновая тРНК, как другая тРНК etc.)

аннотирована как треониновая тРНК с антикодоном GGT

Формальдегид ферредоксин оксидоредуктаза WOR4

-

-

Выдача BLASTN такова, что мы не можем судить, найдены ли гомологи гена thrV в геноме E.coli или нет, так как e-value во всех находках очень высокое. Команда:

blastall -p blastn -d Pm -i thrV.fasta -o sq

Отсутствие каких-либо находок в выдаче MegaBLAST обусловлено длиной якоря 28 п.н. по умолчанию. Если посмотреть на выравнивание BLASTa, то можно видеть, что непрерывных участков длинее 28 там нет. Команда:

megablast -d Pm -i thrV.fasta -o mb

Поиск с помощью Discontigous MegaBLAST отличается тем, что можно задавать паттерн с параметрами -t - длина паттерна, -W - длина якоря и -N - взаимное расположение значащих и незначащих позиций (N=0 - паттерн для поиска последовательностей, кодирующих белки, что связано с вырожденостью, N=1 - позиции распределены случайно, N=2 - использование обоих паттернов). Поиск проводился с длиной якоря 11, который был специально подобран по длине непрерывных участков в выдаче BLASTN и с параметром N=2, чтобы повысить вероятность появления гомологов в выдаче Discontigous MegaBLAST . Но, несмотря на это, результат не дал ничего. Команда:

megablast -d Pm -i thrV.fasta -W 11 -t 16 -N 2 -o dmb

Видимо, MegaBLAST и Discontigous MegaBLAST не предназначены для поиска гомологов в столь отдаленных от E.coli организмах.

По результатам FastA выяснилось, что у гена thrV есть один достаточно близкий гомолог гена тРНК архебактерии Pyrococcus furiosus. При первом запуске программы остальные 2 находки, имеющие e-value оказались ниже порога 0.001, поэтому не будем считать гомологами из-за их cлишком высокого значения e-value. Также при многоразовом запуске FastA каждый раз наблюдалось изменение значения e-value находок. Особое внимание уделялось второй и третьей, так как каждый раз их e-value было то очень близко к первой находке, то очень далеко (изменение в диапазоне 2-3 порядков). Всвязи с этим вторую и третью находки гомологами считать не будем.

Таким образом, лучшей программой для поиска гомологов тРНК в отдаленных организмах оказалась FastA, а ближайшим гомологом гена thrV оказалась запись гена с АС AE010257 в секторе генома 52.