На главную страницу третьего семестра.

Поиск сходных нуклеотидных последовательностей, не кодирующих белки.


1.Определение тРНК, используемой рибосомой при присоединении 4-ого аминокислотного остатка (Pro) к растущей цепи ARGB_ECOLI.


Для идентификации интересующей тРНК использовалась команда grep в командной строке UNIX. Причем полностью вводимая строка выглядит так:
grep -n codon.*Pro ecoli.embl > proline.fasta
Отчет о проделанной работе представлен в виде таблицы:
Таблица 1. Выбор тРНК

 Аминокислотный остаток в 4-ой позиции белка ARGB_ECOLI

P - пролин

  Соответствующий кодон в гене argB

5'-CCA-3'. Третья позиция, которую в данном случае занимает аденин (подчеркнут снизу), является вырожденной: для кодирования одной и той же аминокислоты может быть использованы все четыре варианта кодона: CCA, CCT, CCG, CCC.

  Идеальный антикодон

5'-UGG-3' Этот антикодон в тРНК можно получить транскрибируя с матрицы 5'-CCA-3' расположенной в мРНК

  Ожидаемое количество тРНК для Pro, опираясь на генетически код

4 что соответствует четырем вариантам кодона для пролина: CCA, CCT, CCC, CCG.

  количество разных тРНК для Pro, аннотированных в геноме E.Coli

для E.Coli аннотировано три различных тРНК:

с антикодоном 5'-GGG-3' для соответствующего кодона 5'-CCY-3'. Где Y -(пиримидин в третьей позиции кодона) явно доказывает теорию качания, согласно которой G в антикодоне может узнавать как U, так и C (вообщем см. таблицу ниже)

с неизвестным антикодоном. Кодон, для которого не определен антикодон, описан: это CCG, причем была определена Pro-тРНК.

с антикодоном 5'-UGG-3' для соответствующего кодона 5'-CCD-3'. Где D - любое из A,U или G, но не C. Причина такого явления те же, что и с первой тРНК. Обсуждение приведено ниже.

  Характеристика выбранной для дальнейшего изучения тРНК:

      имя гена

proM

      локализация гена в геноме

locus_tag="b3799" 3980758..3980834 н.о.

      распознаваемый кодон

ССD

      антикодон

UGG

Результат поиска всех пролиновых тРНК у Escherichia coli K-12

51785:FT                   /anticodon=(pos:2284267..2284269,aa:Pro)
83552:FT                   /anticodon=(pos:3706679..3706681,aa:Pro)
89820:FT                   /anticodon=(pos:3980792..3980794,aa:Pro)

Как видно из результатов, количество тРНК, необходимых для Pro теоретически, на одну больше, чем записано в геноме E.Coli. Причем, хочу обратить внимание на тот факт, что третье основание в кодоне (наиболее вариабельное), которое может быть представлено как пуринами, так и пиримидинами, узнается ОДНИМ первым основанием антикодона тРНК. Этот наблюдаемый факт есть неопровержимое доказательство правоты гипотезы "качания" - неоднозначности спаривания третьего основания кодона. Согласно этой теории, возможны следующие типы взаимодействий третьего основания кодона:


первое основание антикодона

    C  

    A  

    U

    G

    I

третье основание кодона

    G  

    U  

A или G

U или C

U,C или A


Где I - инозин, совершенно неспецифичное основание. Инозин, фактически, увеличивает число кодонов, которые способна считывать данная тРНК. В моем случае G,A,T в третьем основании кодона спариваются U в антикодоне. Причем возникает неутсоновское взаимодействие между основаниями G-U. Это можно представить следующим образом:



Итак, первая таблица уже позволила сделать некоторые выводы. Приступим ко второй части задания.

2. Поиск гомологичных тРНК в родственном геноме Bacillus subtilis.


В геноме Bacillus subtilis был произведен поиск последовательности, наиболее похожей на proM, с помощью четырех разных программ. В итоге результат представлен в таблице:
Таблица 2. Поиск гомологичной тРНК

Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST
Длина якоря 6 нуклеотидов 11 нуклеотидов 28 нуклеотидов 11 нуклеотидов
Результаты поиска есть результаты fasta.fasta FASTA не использует индексные файлы, а реализует иной алгоритм, поэтому результат отличается от поисков с программами пакета BLAST. С помощью fasta34 нашёлся ген, правда не соответствуюший тРНК-пролина. Три других выравнивания не несут никакой ценности. есть результаты blastn.fasta Классический алгоритм BLASTP, используемый данной программой пакета BLAST позволил найти три значимых участка в последовательности генома с одинаковыми значениями вероятностных и статистических характеристик (из них я привожу только один) ничего не найдено есть результаты discontigousmegablast.fasta Данная модификация программы MegaBlast с определенным способом заданными параметрами (см. ниже) позволила найти ТЕ ЖЕ результаты, что были получены программой BlastN!! причем с точностью до одного нуклеотидного основания.
Число находок с E-value < 0,01 1 (полный геном) 1 (полный геном) в том числе 3 релевантных участка   1 (полный геном) в том числе 3 релевантных участка
Характеристика лучшей находки:
      E-value 4e-07 2e-11 (для всех трех участков)   1e-11 (для всех трех участков)
      длина выравнивания 77 - соответствует длине последовательности моей тРНК. 72 - построено локальное выравнивание в соответствии с алгоритмом   75 - построено локальное выравнивание в соответствии с алгоритмом
      вес выравнивания 43.5 64   64
      координаты в геноме 11463-11538 н.о. AL009126 166172-166243 н.о. AL009126   166243-166243 н.о. AL009126
Аннотация лучшей находки по записи EMBL:
      имя гена trn0-Ile trnI-Pro   trnI-Pro
      это тРНК? да да   да
      это тоже пролиновая тРНК? нет да   да


    Команды, использованные во втором упражнении:
  1. formatdb -i bs_genome.fasta -n bs -p F
    Получено три индексных файла (bs.nhr, bs.nsq, bs.nin), составляющих словарь для базы данных генома бактерии. В них весь геном разбит по тройкам аминокислот, стоящие на своих позициях.
  2. blastall -p blastn -d bs -i tRNA.fasta -o blastn.fasta
    Результат поиска: одна находка и двенадцать выравниваний, созданными программой BLASTN.
  3. megablast -d bs -i tRNA.fasta -D 2 -o megablast.fasta
    Итого: опция -D нужна для вывода результатов в формате BLAST. Но программа ничего не нашла :(
  4. megablast -d bs -i tRNA.fasta -D 2 -N 1 -W 11 -t 16 -o discontigousmegablast.fasta
    Результат:(discontigous MEGABLAST). Для запуска команды необходимо задать опцию -t. Я выбрал длину паттерна 16 вида ( 1101101101101101), чтобы были и низко достоверные находки (действительно, с паттерном длины 21 находится меньше участков в геноме см. файл 3discontigousmegablast.fasta). Якорь (-W) равно 11. Тип паттерна (-N) - некодирующий (1), то есть не кодирует белковую последовательность. В итоге результат получился таким же, как и при использовании BLASTN.
  5. fasta34 tRNA.fasta bs_genome.fasta 6
    Результат: файл с 4 находками и одним лучшим (единственным значимым выравниванием), причем не совпадающим с РНК-пролина.

Сравнение эффективности поисковых программ.


Как заметно из результатов выполнения задания, вообще не получено никаких данных программой MegaBLAST. Очевидно, это можно объяснить только очень большим значением якоря: в последовательности генома не оказалось идентичных участков в 28 нуклеотидных оснований. Программа FASTA произвела поиск с положительным результатом, но найденная последовательность в геноме Bacillus subtilis оказалась тРНК для изолейцина. Очевидно, такой результат связан с особенностями алгоритма поиска, используемым программой. Из-за короткого якоря (всего 6 н.о.) снижается специфичность, но одновременно повышается чувствительность поиска: так как FASTA затем строит DOT-plot, на которой отмечаются черточками выровненные участки между последовательностями, и затем наиболее близкие из них на лучшей диагонали объединяются в единое выравнивание. Но при этом действительно гомологичные последовательности могут оказаться пропущенными. Действительно, близость черточек на Dot-plot определяется фактически количеством гэпов между ними (ответственных за параллельный перенос по вертикали или горизонтали). Да при этом добавляются ещё несмысловые замены оснований в третьей позиции кодона (если конечно мы имеем дело с кодирующими белки последовательностями ДНК, в случае с тРНК это могут быть вставки/делеции или неспецифические замены в петлях "клеверного листа"). Отчего точно родственные последовательности, филогенетически связанные общностью происхождения и сходностью функции, но эволюционировавшие достаточно быстро, и накопившие много непроявляющихся мутаций, не будут идентифицированы программой FASTA. Программа BlastN показала хорошие результаты (более высокую эффективность), что видимо связано с оптимальностью размера якоря и особенностями обычного алгоритма BLASTP: сперва создается словарь для поиска и затем сканирует Query на наличие якорей. Так как мы ищем последовательности для тРНК, а не транслируемую в белок уникальную ДНК, то и специфичность находки будет высокой, так как ген тРНК сильнее подвержен отбору, чем ген белка (в котором третья позиция в кодоне достаточно вариабельна). Наиболее эффективной оказалась программа discontiguous MegaBLAST. Имея возможность изменять как размер якоря, так и паттерн (определяемый последовательностью 1 и 0, где 1 - совпадение, 0 - любое основание в выравнивании), базируясь на статистически наблюдаемых частотах встречаемости нуклеотдных оснований в определенном порядке (для кодирующих, так и не кодирующих ДНК). Варьируя эти значения, специфичность поиска можно довольно сильно улучшить (хотя и время выполняемой операции повышается). Так при W=const, а t (размер паттерна) увеличивается, то количество возможных выравниваний уменьшается. Такая же закономерность наблюдается при t=const и увеличении W.



©Володя Рудько