Поиск сходных нуклеотидных последовательностей, не кодирующих белки.

1.Определение тРНК, используемой рибосомой при присоединении 4-ого аминокислотного остатка (Pro) к растущей цепи ARGB_ECOLI.

Для идентификации интересующей тРНК использовалась команда grep в командной строке UNIX. Причем полностью вводимая строка выглядит так:

grep -n codon.*Pro ecoli.embl > proline.fasta

Отчет о проделанной работе представлен в виде таблицы:
Таблица 1. Выбор тРНК

Аминокислотный остаток в 4-ой позиции белка ARGB_ECOLI
P - пролин

Соответствующий кодон в гене argB
5'-CCA-3'. Третья позиция, которую в данном случае занимает аденин (подчеркнут снизу), является вырожденной: для кодирования одной и той же аминокислоты может быть использованы все четыре варианта кодона: CCA, CCT, CCG, CCC.

Идеальный антикодон
5'-UGG-3' Этот антикодон в тРНК можно получить транскрибируя с матрицы 5'-CCA-3' расположенной в мРНК

Ожидаемое количество тРНК для Pro, опираясь на генетически код
4 что соответствует четырем вариантам кодона для пролина: CCA, CCT, CCC, CCG.

количество разных тРНК для Pro, аннотированных в геноме E.Coli
для E.Coli аннотировано три различных тРНК:

с антикодоном 5'-GGG-3' для соответствующего кодона 5'-CCY-3'. Где Y -(пиримидин в третьей позиции кодона) явно доказывает теорию качания, согласно которой G в антикодоне может узнавать как U, так и C (вообщем см. таблицу ниже)

с неизвестным антикодоном. Кодон, для которого не определен антикодон, описан: это CCG, причем была определена Pro-тРНК.

с антикодоном 5'-UGG-3' для соответствующего кодона 5'-CCD-3'. Где D - любое из A,U или G, но не C. Причина такого явления те же, что и с первой тРНК. Обсуждение приведено ниже.

Характеристика выбранной для дальнейшего изучения тРНК:

      имя гена
proM

      локализация гена в геноме
locus_tag="b3799" 3980758..3980834 н.о.

      распознаваемый кодон
ССD

      антикодон
UGG

Результат поиска всех пролиновых тРНК у Escherichia coli K-12

51785:FT /anticodon=(pos:2284267..2284269,aa:Pro) 83552:FT /anticodon=(pos:3706679..3706681,aa:Pro) 89820:FT /anticodon=(pos:3980792..3980794,aa:Pro)

Как видно из результатов, количество тРНК, необходимых для Pro теоретически, на одну больше, чем записано в геноме E.Coli. Причем, хочу обратить внимание на тот факт, что третье основание в кодоне (наиболее вариабельное), которое может быть представлено как пуринами, так и пиримидинами, узнается ОДНИМ первым основанием антикодона тРНК. Этот наблюдаемый факт есть неопровержимое доказательство правоты гипотезы "качания" - неоднозначности спаривания третьего основания кодона. Согласно этой теории, возможны следующие типы взаимодействий третьего основания кодона:

первое основание антикодона
    C
    A
    U
    G
    I

третье основание кодона
    G
    U
A или G
U или C
U,C или A

Где I - инозин, совершенно неспецифичное основание. Инозин, фактически, увеличивает число кодонов, которые способна считывать данная тРНК. В моем случае G,A,T в третьем основании кодона спариваются U в антикодоне. Причем возникает неутсоновское взаимодействие между основаниями G-U. Это можно представить следующим образом:

Итак, первая таблица уже позволила сделать некоторые выводы. Приступим ко второй части задания.

2. Поиск гомологичных тРНК в родственном геноме Bacillus subtilis.

В геноме Bacillus subtilis был произведен поиск последовательности, наиболее похожей на proM, с помощью четырех разных программ. В итоге результат представлен в таблице:
Таблица 2. Поиск гомологичной тРНК

Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST

Длина якоря 6 нуклеотидов 11 нуклеотидов 28 нуклеотидов 11 нуклеотидов

Результаты поиска есть результаты fasta.fasta FASTA не использует индексные файлы, а реализует иной алгоритм, поэтому результат отличается от поисков с программами пакета BLAST. С помощью fasta34 нашёлся ген, правда не соответствуюший тРНК-пролина. Три других выравнивания не несут никакой ценности. есть результаты blastn.fasta Классический алгоритм BLASTP, используемый данной программой пакета BLAST позволил найти три значимых участка в последовательности генома с одинаковыми значениями вероятностных и статистических характеристик (из них я привожу только один) ничего не найдено есть результаты discontigousmegablast.fasta Данная модификация программы MegaBlast с определенным способом заданными параметрами (см. ниже) позволила найти ТЕ ЖЕ результаты, что были получены программой BlastN!! причем с точностью до одного нуклеотидного основания.

Число находок с E-value < 0,01 1 (полный геном) 1 (полный геном) в том числе 3 релевантных участка 1 (полный геном) в том числе 3 релевантных участка

Характеристика лучшей находки:

      E-value 4e-07 2e-11 (для всех трех участков) 1e-11 (для всех трех участков)

      длина выравнивания 77 - соответствует длине последовательности моей тРНК. 72 - построено локальное выравнивание в соответствии с алгоритмом 75 - построено локальное выравнивание в соответствии с алгоритмом

      вес выравнивания 43.5 64 64

      координаты в геноме 11463-11538 н.о. AL009126 166172-166243 н.о. AL009126 166243-166243 н.о. AL009126

Аннотация лучшей находки по записи EMBL:

      имя гена trn0-Ile trnI-Pro trnI-Pro

      это тРНК? да да да

      это тоже пролиновая тРНК? нет да да

Команды, использованные во втором упражнении:

formatdb -i bs_genome.fasta -n bs -p F
Получено три индексных файла (bs.nhr, bs.nsq, bs.nin), составляющих словарь для базы данных генома бактерии. В них весь геном разбит по тройкам аминокислот, стоящие на своих позициях.
blastall -p blastn -d bs -i tRNA.fasta -o blastn.fasta
Результат поиска: одна находка и двенадцать выравниваний, созданными программой BLASTN.
megablast -d bs -i tRNA.fasta -D 2 -o megablast.fasta
Итого: опция -D нужна для вывода результатов в формате BLAST. Но программа ничего не нашла :(
megablast -d bs -i tRNA.fasta -D 2 -N 1 -W 11 -t 16 -o discontigousmegablast.fasta
Результат:(discontigous MEGABLAST). Для запуска команды необходимо задать опцию -t. Я выбрал длину паттерна 16 вида ( 1101101101101101), чтобы были и низко достоверные находки (действительно, с паттерном длины 21 находится меньше участков в геноме см. файл 3discontigousmegablast.fasta). Якорь (-W) равно 11. Тип паттерна (-N) - некодирующий (1), то есть не кодирует белковую последовательность. В итоге результат получился таким же, как и при использовании BLASTN.
fasta34 tRNA.fasta bs_genome.fasta 6
Результат: файл с 4 находками и одним лучшим (единственным значимым выравниванием), причем не совпадающим с РНК-пролина.

Сравнение эффективности поисковых программ.

Как заметно из результатов выполнения задания, вообще не получено никаких данных программой MegaBLAST. Очевидно, это можно объяснить только очень большим значением якоря: в последовательности генома не оказалось идентичных участков в 28 нуклеотидных оснований. Программа FASTA произвела поиск с положительным результатом, но найденная последовательность в геноме Bacillus subtilis оказалась тРНК для изолейцина. Очевидно, такой результат связан с особенностями алгоритма поиска, используемым программой. Из-за короткого якоря (всего 6 н.о.) снижается специфичность, но одновременно повышается чувствительность поиска: так как FASTA затем строит DOT-plot, на которой отмечаются черточками выровненные участки между последовательностями, и затем наиболее близкие из них на лучшей диагонали объединяются в единое выравнивание. Но при этом действительно гомологичные последовательности могут оказаться пропущенными. Действительно, близость черточек на Dot-plot определяется фактически количеством гэпов между ними (ответственных за параллельный перенос по вертикали или горизонтали). Да при этом добавляются ещё несмысловые замены оснований в третьей позиции кодона (если конечно мы имеем дело с кодирующими белки последовательностями ДНК, в случае с тРНК это могут быть вставки/делеции или неспецифические замены в петлях "клеверного листа"). Отчего точно родственные последовательности, филогенетически связанные общностью происхождения и сходностью функции, но эволюционировавшие достаточно быстро, и накопившие много непроявляющихся мутаций, не будут идентифицированы программой FASTA. Программа BlastN показала хорошие результаты (более высокую эффективность), что видимо связано с оптимальностью размера якоря и особенностями обычного алгоритма BLASTP: сперва создается словарь для поиска и затем сканирует Query на наличие якорей. Так как мы ищем последовательности для тРНК, а не транслируемую в белок уникальную ДНК, то и специфичность находки будет высокой, так как ген тРНК сильнее подвержен отбору, чем ген белка (в котором третья позиция в кодоне достаточно вариабельна). Наиболее эффективной оказалась программа discontiguous MegaBLAST. Имея возможность изменять как размер якоря, так и паттерн (определяемый последовательностью 1 и 0, где 1 - совпадение, 0 - любое основание в выравнивании), базируясь на статистически наблюдаемых частотах встречаемости нуклеотдных оснований в определенном порядке (для кодирующих, так и не кодирующих ДНК). Варьируя эти значения, специфичность поиска можно довольно сильно улучшить (хотя и время выполняемой операции повышается). Так при W=const, а t (размер паттерна) увеличивается, то количество возможных выравниваний уменьшается. Такая же закономерность наблюдается при t=const и увеличении W.

Аминокислотный остаток в 4-ой позиции белка ARGB_ECOLI	P - пролин
Соответствующий кодон в гене argB	5'-CCA-3'. Третья позиция, которую в данном случае занимает аденин (подчеркнут снизу), является вырожденной: для кодирования одной и той же аминокислоты может быть использованы все четыре варианта кодона: CCA, CCT, CCG, CCC.
Идеальный антикодон	5'-UGG-3' Этот антикодон в тРНК можно получить транскрибируя с матрицы 5'-CCA-3' расположенной в мРНК
Ожидаемое количество тРНК для Pro, опираясь на генетически код	4 что соответствует четырем вариантам кодона для пролина: CCA, CCT, CCC, CCG.
количество разных тРНК для Pro, аннотированных в геноме E.Coli	для E.Coli аннотировано три различных тРНК: с антикодоном 5'-GGG-3' для соответствующего кодона 5'-CCY-3'. Где Y -(пиримидин в третьей позиции кодона) явно доказывает теорию качания, согласно которой G в антикодоне может узнавать как U, так и C (вообщем см. таблицу ниже) с неизвестным антикодоном. Кодон, для которого не определен антикодон, описан: это CCG, причем была определена Pro-тРНК. с антикодоном 5'-UGG-3' для соответствующего кодона 5'-CCD-3'. Где D - любое из A,U или G, но не C. Причина такого явления те же, что и с первой тРНК. Обсуждение приведено ниже.
Характеристика выбранной для дальнейшего изучения тРНК:
имя гена	proM
локализация гена в геноме	locus_tag="b3799" 3980758..3980834 н.о.
распознаваемый кодон	ССD
антикодон	UGG
*Результат поиска всех пролиновых тРНК у Escherichia coli* K-12** 51785:FT /anticodon=(pos:2284267..2284269,aa:Pro) 83552:FT /anticodon=(pos:3706679..3706681,aa:Pro) 89820:FT /anticodon=(pos:3980792..3980794,aa:Pro)

первое основание антикодона	C	A	U	G	I
третье основание кодона	G	U	A или G	U или C	U,C или A

Программа	FASTA	BLASTN	MegaBLAST	discontiguous MegaBLAST
Длина якоря	6 нуклеотидов	11 нуклеотидов	28 нуклеотидов	11 нуклеотидов
Результаты поиска	есть результаты fasta.fasta FASTA не использует индексные файлы, а реализует иной алгоритм, поэтому результат отличается от поисков с программами пакета BLAST. С помощью fasta34 нашёлся ген, правда не соответствуюший тРНК-пролина. Три других выравнивания не несут никакой ценности.	есть результаты blastn.fasta Классический алгоритм BLASTP, используемый данной программой пакета BLAST позволил найти три значимых участка в последовательности генома с одинаковыми значениями вероятностных и статистических характеристик (из них я привожу только один)	ничего не найдено	есть результаты discontigousmegablast.fasta Данная модификация программы MegaBlast с определенным способом заданными параметрами (см. ниже) позволила найти ТЕ ЖЕ результаты, что были получены программой BlastN!! причем с точностью до одного нуклеотидного основания.
Число находок с E-value < 0,01	1 (полный геном)	1 (полный геном) в том числе 3 релевантных участка		1 (полный геном) в том числе 3 релевантных участка
Характеристика лучшей находки:
E-value	4e-07	2e-11 (для всех трех участков)		1e-11 (для всех трех участков)
длина выравнивания	77 - соответствует длине последовательности моей тРНК.	72 - построено локальное выравнивание в соответствии с алгоритмом		75 - построено локальное выравнивание в соответствии с алгоритмом
вес выравнивания	43.5	64		64
координаты в геноме	11463-11538 н.о. AL009126	166172-166243 н.о. AL009126		166243-166243 н.о. AL009126
Аннотация лучшей находки по записи EMBL:
имя гена	trn0-Ile	trnI-Pro		trnI-Pro
это тРНК?	да	да		да
это тоже пролиновая тРНК?	нет	да		да