Главная страница > Третий семестр > Поиск сходных нуклеотидных последовательностей, не кодирующих белки 

Поиск сходных нуклеотидных последовательностей, не кодирующих белки


    Поиск тРНК, участвовавшей в присоединении четвертого аминокислотного остатка белка GlmS E.coli в записи EMBL

    Четвертым аминокислотным остатком белка GlmS E.coli является остаток изолейцина (I). По данным записи EMBL X01631, в гене glmS он кодируется триплетом ATT. Данному кодону соответствует антикодон AAU.

    Третья позиция кодона изолейцина, как и большинства других кодонов, является вырожденной (см. таблицу генетического кода). Помимо триплета ATT, изолейцин может кодироваться триплетами ATC и ATA. Можно предположить, что антикодонами изолейциновых тРНК (тРНКIle) могут также являться GAU и UAU.

    Известно, что количество различных тРНК значительно меньше, чем количество смысловых кодонов. Это связано с тем, что молекулы тРНК одного типа в большинстве случаев могут узнавать несколько кодонов сразу. При этом спаривание первых двух оснований кодона со вторым и третьим основаниями антикодона специфично, а спаривании третьего основания кодона с первым основанием антикодона наблюдается  неоднозначность. Эта неоднозначность компенсируется вырожденностью генетического кода: кодоны с различными третьими основаниями часто кодируют одну и ту же аминокислоту.

    Помимо изолейцина, кодоны с первыми двумя основаниями AT могут кодировать метионин (или формилметионин в начале полипептидной цепи). Таким образом, должен существовать механизм, позволяющий тРНКIle отличать кодоны ATH от метионинового кодона ATG. Возможно, первое основание антикодона тРНКIle является модифицированным. По данным [1], гипоксантин, занимая первое положение в антикодоне, может обуславливать спаривание такого антикодона с кодонами, на третьей позиции которых находятся T, C и A. Если тРНКIle действительно является единственной, на первой позиции ее антикодона может находиться гипоксантин.

    С использованием средств Linux был проведен поиск всех генов тРНК в геноме E.coli, представленному в файле ecoli.embl. Была применена команда grep:

grep -n codon.*isoleuc > grepres.txt

    Результаты выполнения команды (содержимое файла grepres.txt) приведены в табл. 1. Среди находок присутствуют три изолейциновых тРНК с антикодоном GAU и две с антикодоном CAU. По данным ecoli.embl, остаток гуанина на первой позиции антикодона взаимодействует с пиримидиновыми основаниями, а остаток цитозина с аденином. Так как нуклеотидная последовательность гена тРНКIle была получена путем секвенирования ДНК, файл ecoli.embl не содержит информации о возможных посттранскрипционных модификациях. Можно предположить, что, например, при транскрипции на первую позицию  антикодона тРНКIle был присоединен гуаниновый нуклеотид, а затем произошло его модифицирование (гипоксантин, как и гуанин, является пуриновым основанием). Модифицированию может подлежать и остаток цитозина, так как CAU является антикодоном к единственному метиониновому кодону.

    Результаты попарного глобального выравнивания генов тРНКIle, проведенного с помощью программы needle, показали, что последовательности всех всех тРНК с антикодоном GAU практически идентичны между собой, как и последовательности генов тРНК с антикодоном CAU. В то же время последовательности последовательности генов тРНК с антикодоном GAU существенно отличаются от последовательностей тРНК с антикодоном CAU. Таким образом, в геноме E.coli имеются два гена тРНКIle, представленные несколькими копиями. Команда Linux, с помощью которой была запущена программа needle, приведена ниже:

needle trna1.fasta trna2.fasta align12.txt.

    Для проведения поиска гомологичных последовательностей в геноме Bacillus subtilis выбран ген ileV, кодирующий первую тРНК в списке находок (антикодон GAU). Последовательность гена ileV была получена с помощью команды Linux seqret (после выполнения команды программа запросила номера первого и последнего оснований извлекаемого участка):

seqret ecoli.embl trna.fasta -sask1.

    Результаты поиска генов тРНКIle  представлены в табл. 1.


    Табл. 1. Поиск тРНК, участвовавшей в присоединении четвертого аминокислотного остатка белка GlmS E.coli в записи EMBL
(вырожденные позиции кодона и антикодона подчеркнуты).

Аминокислотный остаток в 4-ой позиции белка GLMS_ECOLI

изолейцин (I)

Соответствующий кодон в гене glmS

5'-ATT-3'

Идеальный антикодон

5'-AAU-3'

Сколько можно было бы ожидать разных тРНК для остатка изолейцина, если опираться на генетический код?

3

Сколько разных тРНК для остатка изолейцина аннотировано в геноме кишечной палочки?

2

Характеристика выбранной для дальнейшего изучения тРНК

Имя гена
ileV
Локализация гена в геноме
225381-225457 (прямая цепь)
Распознаваемые кодоны
5'-ATH-3'
Антикодон
5'-GAU-3'

Результат поиска всех изолейциновых тРНК у Escherichia coli K-12

          5197:FT /note="codons recognized: AUY; anticodon: GAU isoleucine
     62765:FT /note="codon recognized: AUA; anticodon: CAU; isoleucine
     72453:FT /note="codon recognized: AUA; anticodon: CAU; isoleucine
     77219:FT /note="codons recognized: AUY; anticodon: GAU isoleucine
     91049:FT /note="codons recognized: AUY; anticodon: GAU isoleucine




    Поиск гомологичных тРНК в геноме Bacillus subtilis   

    Поиск участков генома B.subtilis (запись EMBL AL009126), сходных с последовательностью гена ileV E.coli, кодирующего тРНКIle, был проведен с помощью программ BLASTN, MegaBLAST, discontiguous MegaBLAST и FASTA. Результаты поиска представлены в табл. 2.
 

    Поиск с помощью BLASTN

    Поиск осуществлен с использованием локальной версии программы BLASTN на сервере kodomo-count. Пороговое значение e-value принято равным 10. Запуск программы осуществлен следующей командой Linux:

blastall -p blastn -d bs -i trna.fasta -o blastn_res.txt -e 10

    Выдача программы BLASTN приведена здесь.    

    С помощью BLASTN было выявлено три участка генома B.subtilis, последовательности которых сходны с последовательностью гена ileV, кодирующего тРНКIle E.coli. Значения e-value находок составляют от 10-8 до 2×10-23 (длина выравниваний равна 72 bp, процент идентичности составляет 90-93%). По данным записи EMBL AL009126, все находки представляют собой гены тРНКIle: trnO-Ile, trnA-Ile и trnB-Ile2. Высокое сходство последовательностей гена ileV E.coli и выявленных генов B.subtilis, продукты которых выполняют ту же функцию, позволяет говорить о том, что ileV и выявленные гены являются гомологичными.

    Следует отметить, что в геноме B.subtilis ближайшими гомологами гена, кодирующего тРНКIle E.coli, также оказались гены изолейциновых тРНК. Это говорит о высокой консервативности данного класса тРНК. В отличие от генов белков, в генах тРНК консервативными являются практически все основания. Это обусловлено тем, что образование функционального продукта генов тРНК не связано с процессом трансляции, и, таким образом, практически каждое основание находится под давлением отбора.

    В отличие от генома E.coli, в геноме B.subtilis гены тРНКIle представлены тремя копиями. При этом trnB-Ile2 расположен на комплементарной цепи и незначительно отличается от двух других копий (в геноме E.coli один ген тРНКIle также расположен на комплементарной цепи). Относительное расположение генов тРНКIle в рассмотренных геномах различается (в геноме E.coli все гены отделены друг от друга промежутками длиной не менее 500 kbp, в геноме B.subtilis гены trnO-Ile и trnA-Ile располагаются на расстоянии 20 kbp друг от друга). Учитывая высокую консервативность генов тРНК (ближайшими гомологами тРНК одного класса являются тРНК того же класса, см. выше), можно сделать вывод о том, что в процессе эволюции произошла (или многократно происходила) перестройка геномной ДНК.

    Таким образом, программой BLASTN были найдены только ближайшие гомологи рассматриваемого гена.
 

    Поиск с помощью MegaBLAST и discontiguous MegaBLAST

    Поиск осуществлен с помощью локальной версии программы MegaBLAST на сервере kodomo-count. Пороговое значение e-value принято равным 10. Запуск программы осуществлен следующей командой Linux:

megablast -d bs -i trna.fasta -o megablast_res.txt -e 10 -D 2

    При проведении поиска с данными параметрами программа не выявила ни один участок генома B.subtilis, сходный с геном ileV E.coli. Отсутствие находок связано с тем, что длина якоря MegaBLAST, задаваемая по умолчанию, очень велика (28 bp, для сравнения длина якоря BLASTN ― 11 bp). Как показывают выравнивания, построенные программой BLASTN, в пределах последовательностей генов тРНКIle отсутствуют непрерывные консервативные участки такой длины. Таким образом, MegaBLAST не может построить ни одного выравнивания. Для того, чтобы программа смогла выявить гомологи ileV, найденные ранее с помощью BLASTN, необходимо уменьшить длину якоря:

megablast -d bs -i trna.fasta -o megablast_res.txt -e 10 -D 2 -W 11

    При проведении поиска с новыми параметрами в списке находок появились гены тРНКIle B.subtilis: trnO-Ile, trnA-Ile и trnB-Ile2 (см. выдачу программы). При использовании значений параметров, задаваемых по умолчанию, MegaBLAST представляет собой более грубый инструмент, чем BLASTN, и может быть использован, например, для поиска практически идентичных последовательностей, расхождения между которыми обусловлены только ошибками секвенирования. В этом случае, особенно при большом объеме банков данных, MegaBLAST будет давать выигрыш во времени за счет большей длины якоря и некоторых других особенностей.

    Поиск, проведенный с помощью discontiguous MegaBLAST, оказался более результативным. Запуск программы осуществлен командной строкой Linux следующего вида:

megablast -d bs -i trna.fasta -o megablast_res.txt -e 10 -D 2 -W 11 -t 16 -N 2

    Особенностью данной программы является то, что при проведении поиска она позволяет строить выравнивания с использованием паттернов (якорь discontiguous MegaBLAST состоит из отдельных фрагментов, разделенных участками из нескольких bp). Вид паттерна задается тремя параметрами: -W, -t и -N, каждому сочетанию которых соответствует свой паттерн. Параметр -t определяет длину паттерна, -W ― количество значащих позиций в паттерне, -N ― взаимное расположение значащих и незначащих позиций. При N = 0 каждая незначащая позиция чередуется с двумя значащими; такой тип паттерна наиболее удобен при поиске последовательностей, кодирующих белки (это связано с вырожденностью генетического кода). При N = 1 значащие и незначащие позиции распределены случайным образом, что оказывается удобным при поиске последовательностей, не кодирующих белки. При N = 2 программа использует оба типа паттернов.

    При проведении поиска участков генома B.subtilis, сходных с геном ileV E.coli, который не кодирует белок, были использованы паттерны различные паттерны, отличающиеся длиной и количеством значащих позиций. Значение параметра -N выбрано равным 2, что повышает вероятность случайного совпадения незначащих позиций паттерна с неконсервативными позициями тРНК. Одна из выдач discontiguous MegaBLAST приведена здесь.

    Помимо генов trnO-Ile, trnA-Ile и trnB-Ile2, также выявленных с помощью BLASTN,  выявил два коротких фрагмента, сходных с участками гена ileV, расположенными вблизи его 5'- и 3'-концов. По данным записи EMBL AL009126, оба этих фрагмента входят в состав гена trnB-Met1, кодирующего тРНКMet. Таким образом, с помощью программы discontiguous MegaBLAST был выявлен гомолог гена изолейциновой тРНК, кодирующий метиониновую тРНК. Наибольшая длина идентичных участков тРНКIle и тРНКMet приходится на акцепторный стебель (выровненные фрагменты расположены вблизи 5'- и 3'-концов генов). Различия между центральными участками более существенны, что является причиной разбиения выравнивание на два коротких участка. Более высокая консервативность акцепторного стебля тРНК по сравнению с другими участками молекулы может быть связана со спецификой узнавания тРНК соответствующими аминоацил-тРНК-синтазами. Возможно, распознавание принадлежности тРНК к определенному классу осуществляется по последовательностям других участков, таких как вариабельная петля, TψC- и DU-петли.

    Следует отметить, что ближайшим гомологом тРНКIle оказалась тРНК аминокислоты, кодон которой наиболее сходен с кодоном изолейцина (кодоны изолейцина и метионина различаются только по третьему аминокислотному остатку). Возможно, это сходство имеет определенное значение для организма. Так как изолейцин и метионин являются гидрофобными аминокислотными остатками с длинной боковой цепью, замена остатка изолейцина на остаток метионина в последовательности белка (и наоборот) может повлиять на выполнение белком его функции в меньшей степени, чем замена на большинство других аминокислотных остатков.

    Таким образом, discontiguous MegaBLAST является более точным инструментом, чем MegaBLAST и BLASTN, и позволяет выявлять более отдаленные гомологи.
 

    Поиск с помощью FASTA

   Поиск осуществлен с использованием локальной версии программы FASTA на сервере kodomo-count. Пороговое значение e-value принято равным 10. Запуск программы осуществлен следующей командой Linux:

fasta34 trna.fasta bs_genome.fasta -O fasta_res.txt -E 10 -b 20 -d 20

    Выдача программы приведена здесь.

    С помощью FASTA были выявлены четыре участка генома B.subtilis, сходные с участками гена ileV. Одна из находок имеет достаточно низкое значение e-value (1.1×10-22), значение e-value остальных трех находок превышает 1. По данным записи EMBL AL009126, находка с наименьшим значением e-value соответствует гену trnO-Ile, кодирующему тРНКIle. Данный ген был выявлен также с помощью BLASTN, MegaBLAST и discontiguous MegaBLAST. Остальные находки представляют собой короткие участки последовательностей, сходные с участками гена IleV и прилежащие к гену trnO-Ile. Так как эти участки не входят в состав генов тРНК, их сходство с последовательностью ileV является следствием случайного совпадения оснований.

    Появление таких участков в списке находок может быть объяснено особенностями алгоритма FASTA. Скорее всего, в связи с небольшим удалением от гомолога гена ileV (trnO-Ile), эти участки были включены в состав фрагмента последовательности генома B.subtilis, подлежащему локальному выравниванию по алгоритму Смита-Ватермана. Алгоритм Смита-Ватермана является очень чувствительным и, при высоком пороговом значении e-value, способен выдать большое количество ложных находок.

    Использование программой FASTA алгоритма построения выравниваний, который отличается от алгоритма, используемого программами BLAST, привело к тому, что длина выравнивания лучшей находки FASTA (и, следовательно, вес выравнивания и ее e-value) незначительно отличаются от соответствующих параметров лучших находок программ BLASTN, MegaBLAST и discontiguous MegaBLAST. Следует отметить, что все находки, сделанные программой FASTA, находятся в начале генома B.subtilis. Гомологи гена ileV, находящиеся в конце генома, найдены не были.


    Табл. 2. Результаты поиска участков генома B.subtilis, сходных с последовательностью гена ileV E.coli.

Программа

BLASTN
MegaBLAST *
discontiguous MegaBLAST
FASTA

Длина якоря

11
28
11 3

Число находок с e-value < 0.01

3
0 3 1

Характеристика лучшей находки

E-value
2×10-23
- 2×10-23 1.1×10-22
Длина выравнивания
72
- 72 76
Вес выравнивания (бит)
103
- 103 93.6
Координаты в геноме
11467-11538
31935-32006
- 11467-11538
31935-32006
11463-11538

Аннотация лучшей находки в записи EMBL

Имя гена
trnO-Ile
trnA-Ile
-
trnO-Ile
trnA-Ile
trnO-Ile
Продукт гена
тРНКIle
- тРНКIle тРНКIle


*
  Приведены результаты поиска при длине якоря, равной 28 bp. При проведении поиска с якорем из 11 bp результаты не отличались от результатов поиска с помощью программы BLASTN.



    1. М.Сингер, П.Берг Гены и геномы, т. 1. М.:"Мир", 1998, стр.156.


© Куравский Михаил Львович, 2006