Главная страница > Третий семестр > Поиск сходных нуклеотидных последовательностей, не кодирующих белки
Четвертым аминокислотным остатком белка GlmS E.coli является остаток изолейцина (I). По данным записи EMBL X01631, в гене glmS он кодируется триплетом ATT. Данному кодону соответствует антикодон AAU.
Третья позиция кодона изолейцина, как и большинства других кодонов, является вырожденной (см. таблицу генетического кода). Помимо триплета ATT, изолейцин может кодироваться триплетами ATC и ATA. Можно предположить, что антикодонами изолейциновых тРНК (тРНКIle) могут также являться GAU и UAU.
Известно, что количество различных тРНК значительно меньше, чем количество смысловых кодонов. Это связано с тем, что молекулы тРНК одного типа в большинстве случаев могут узнавать несколько кодонов сразу. При этом спаривание первых двух оснований кодона со вторым и третьим основаниями антикодона специфично, а спаривании третьего основания кодона с первым основанием антикодона наблюдается неоднозначность. Эта неоднозначность компенсируется вырожденностью генетического кода: кодоны с различными третьими основаниями часто кодируют одну и ту же аминокислоту.
Помимо изолейцина, кодоны с первыми двумя основаниями AT могут кодировать метионин (или формилметионин в начале полипептидной цепи). Таким образом, должен существовать механизм, позволяющий тРНКIle отличать кодоны ATH от метионинового кодона ATG. Возможно, первое основание антикодона тРНКIle является модифицированным. По данным [1], гипоксантин, занимая первое положение в антикодоне, может обуславливать спаривание такого антикодона с кодонами, на третьей позиции которых находятся T, C и A. Если тРНКIle действительно является единственной, на первой позиции ее антикодона может находиться гипоксантин.
С использованием средств Linux был проведен поиск всех генов тРНК в геноме E.coli, представленному в файле ecoli.embl. Была применена команда grep:
grep -n codon.*isoleuc > grepres.txt
Результаты выполнения команды (содержимое файла grepres.txt) приведены в табл. 1. Среди находок присутствуют три изолейциновых тРНК с антикодоном GAU и две ― с антикодоном CAU. По данным ecoli.embl, остаток гуанина на первой позиции антикодона взаимодействует с пиримидиновыми основаниями, а остаток цитозина ― с аденином. Так как нуклеотидная последовательность гена тРНКIle была получена путем секвенирования ДНК, файл ecoli.embl не содержит информации о возможных посттранскрипционных модификациях. Можно предположить, что, например, при транскрипции на первую позицию антикодона тРНКIle был присоединен гуаниновый нуклеотид, а затем произошло его модифицирование (гипоксантин, как и гуанин, является пуриновым основанием). Модифицированию может подлежать и остаток цитозина, так как CAU является антикодоном к единственному метиониновому кодону.
Результаты попарного глобального выравнивания генов тРНКIle, проведенного с помощью программы needle, показали, что последовательности всех всех тРНК с антикодоном GAU практически идентичны между собой, как и последовательности генов тРНК с антикодоном CAU. В то же время последовательности последовательности генов тРНК с антикодоном GAU существенно отличаются от последовательностей тРНК с антикодоном CAU. Таким образом, в геноме E.coli имеются два гена тРНКIle, представленные несколькими копиями. Команда Linux, с помощью которой была запущена программа needle, приведена ниже:
needle trna1.fasta trna2.fasta align12.txt.
Для проведения поиска гомологичных последовательностей в геноме Bacillus subtilis выбран ген ileV, кодирующий первую тРНК в списке находок (антикодон GAU). Последовательность гена ileV была получена с помощью команды Linux seqret (после выполнения команды программа запросила номера первого и последнего оснований извлекаемого участка):
seqret ecoli.embl trna.fasta -sask1.
Результаты поиска генов тРНКIle представлены в табл. 1.
Табл. 1.
Поиск тРНК, участвовавшей в присоединении четвертого аминокислотного остатка
белка GlmS E.coli в записи EMBL
(вырожденные позиции кодона и антикодона подчеркнуты).
Аминокислотный остаток в 4-ой позиции белка GLMS_ECOLI |
|
Соответствующий кодон в гене glmS |
|
Идеальный антикодон |
|
Сколько можно было бы ожидать разных тРНК для остатка изолейцина, если опираться на генетический код? |
|
Сколько разных тРНК для остатка изолейцина аннотировано в геноме кишечной палочки? |
|
Характеристика выбранной для дальнейшего изучения тРНК |
|
Имя гена |
|
Локализация гена в геноме |
|
Распознаваемые кодоны |
|
Антикодон |
|
Результат поиска всех изолейциновых тРНК у Escherichia coli K-12 |
|
5197:FT /note="codons
recognized: AUY; anticodon: GAU isoleucine |
Поиск участков генома B.subtilis (запись EMBL AL009126),
сходных с последовательностью гена ileV
E.coli,
кодирующего
тРНКIle, был проведен с помощью
программ BLASTN, MegaBLAST,
discontiguous MegaBLAST и FASTA.
Результаты поиска представлены в табл. 2.
Поиск осуществлен с использованием локальной версии программы BLASTN на сервере kodomo-count. Пороговое значение e-value принято равным 10. Запуск программы осуществлен следующей командой Linux:
blastall -p blastn -d bs -i trna.fasta -o blastn_res.txt -e 10
Выдача программы BLASTN приведена здесь.
С помощью BLASTN было выявлено три участка генома B.subtilis, последовательности которых сходны с последовательностью гена ileV, кодирующего тРНКIle E.coli. Значения e-value находок составляют от 10-8 до 2×10-23 (длина выравниваний равна 72 bp, процент идентичности составляет 90-93%). По данным записи EMBL AL009126, все находки представляют собой гены тРНКIle: trnO-Ile, trnA-Ile и trnB-Ile2. Высокое сходство последовательностей гена ileV E.coli и выявленных генов B.subtilis, продукты которых выполняют ту же функцию, позволяет говорить о том, что ileV и выявленные гены являются гомологичными.
Следует отметить, что в геноме B.subtilis ближайшими гомологами гена, кодирующего тРНКIle E.coli, также оказались гены изолейциновых тРНК. Это говорит о высокой консервативности данного класса тРНК. В отличие от генов белков, в генах тРНК консервативными являются практически все основания. Это обусловлено тем, что образование функционального продукта генов тРНК не связано с процессом трансляции, и, таким образом, практически каждое основание находится под давлением отбора.
В отличие от генома E.coli, в геноме B.subtilis гены тРНКIle представлены тремя копиями. При этом trnB-Ile2 расположен на комплементарной цепи и незначительно отличается от двух других копий (в геноме E.coli один ген тРНКIle также расположен на комплементарной цепи). Относительное расположение генов тРНКIle в рассмотренных геномах различается (в геноме E.coli все гены отделены друг от друга промежутками длиной не менее 500 kbp, в геноме B.subtilis гены trnO-Ile и trnA-Ile располагаются на расстоянии 20 kbp друг от друга). Учитывая высокую консервативность генов тРНК (ближайшими гомологами тРНК одного класса являются тРНК того же класса, см. выше), можно сделать вывод о том, что в процессе эволюции произошла (или многократно происходила) перестройка геномной ДНК.
Таким образом, программой
BLASTN были найдены только ближайшие гомологи
рассматриваемого гена.
Поиск осуществлен с помощью локальной версии программы MegaBLAST на сервере kodomo-count. Пороговое значение e-value принято равным 10. Запуск программы осуществлен следующей командой Linux:
megablast -d bs -i trna.fasta -o megablast_res.txt -e 10 -D 2
При проведении поиска с данными параметрами программа не выявила ни один участок генома B.subtilis, сходный с геном ileV E.coli. Отсутствие находок связано с тем, что длина якоря MegaBLAST, задаваемая по умолчанию, очень велика (28 bp, для сравнения длина якоря BLASTN ― 11 bp). Как показывают выравнивания, построенные программой BLASTN, в пределах последовательностей генов тРНКIle отсутствуют непрерывные консервативные участки такой длины. Таким образом, MegaBLAST не может построить ни одного выравнивания. Для того, чтобы программа смогла выявить гомологи ileV, найденные ранее с помощью BLASTN, необходимо уменьшить длину якоря:
megablast -d bs -i trna.fasta -o megablast_res.txt -e 10 -D 2 -W 11
При проведении поиска с новыми параметрами в списке находок появились гены тРНКIle B.subtilis: trnO-Ile, trnA-Ile и trnB-Ile2 (см. выдачу программы). При использовании значений параметров, задаваемых по умолчанию, MegaBLAST представляет собой более грубый инструмент, чем BLASTN, и может быть использован, например, для поиска практически идентичных последовательностей, расхождения между которыми обусловлены только ошибками секвенирования. В этом случае, особенно при большом объеме банков данных, MegaBLAST будет давать выигрыш во времени за счет большей длины якоря и некоторых других особенностей.
Поиск, проведенный с помощью discontiguous MegaBLAST, оказался более результативным. Запуск программы осуществлен командной строкой Linux следующего вида:
megablast -d bs -i trna.fasta -o megablast_res.txt -e 10 -D 2 -W 11 -t 16 -N 2
Особенностью данной программы является то, что при проведении поиска она позволяет строить выравнивания с использованием паттернов (якорь discontiguous MegaBLAST состоит из отдельных фрагментов, разделенных участками из нескольких bp). Вид паттерна задается тремя параметрами: -W, -t и -N, каждому сочетанию которых соответствует свой паттерн. Параметр -t определяет длину паттерна, -W ― количество значащих позиций в паттерне, -N ― взаимное расположение значащих и незначащих позиций. При N = 0 каждая незначащая позиция чередуется с двумя значащими; такой тип паттерна наиболее удобен при поиске последовательностей, кодирующих белки (это связано с вырожденностью генетического кода). При N = 1 значащие и незначащие позиции распределены случайным образом, что оказывается удобным при поиске последовательностей, не кодирующих белки. При N = 2 программа использует оба типа паттернов.
При проведении поиска участков генома B.subtilis, сходных с геном ileV E.coli, который не кодирует белок, были использованы паттерны различные паттерны, отличающиеся длиной и количеством значащих позиций. Значение параметра -N выбрано равным 2, что повышает вероятность случайного совпадения незначащих позиций паттерна с неконсервативными позициями тРНК. Одна из выдач discontiguous MegaBLAST приведена здесь.
Помимо генов trnO-Ile, trnA-Ile и trnB-Ile2, также выявленных с помощью BLASTN, выявил два коротких фрагмента, сходных с участками гена ileV, расположенными вблизи его 5'- и 3'-концов. По данным записи EMBL AL009126, оба этих фрагмента входят в состав гена trnB-Met1, кодирующего тРНКMet. Таким образом, с помощью программы discontiguous MegaBLAST был выявлен гомолог гена изолейциновой тРНК, кодирующий метиониновую тРНК. Наибольшая длина идентичных участков тРНКIle и тРНКMet приходится на акцепторный стебель (выровненные фрагменты расположены вблизи 5'- и 3'-концов генов). Различия между центральными участками более существенны, что является причиной разбиения выравнивание на два коротких участка. Более высокая консервативность акцепторного стебля тРНК по сравнению с другими участками молекулы может быть связана со спецификой узнавания тРНК соответствующими аминоацил-тРНК-синтазами. Возможно, распознавание принадлежности тРНК к определенному классу осуществляется по последовательностям других участков, таких как вариабельная петля, TψC- и DU-петли.
Следует отметить, что ближайшим гомологом тРНКIle оказалась тРНК аминокислоты, кодон которой наиболее сходен с кодоном изолейцина (кодоны изолейцина и метионина различаются только по третьему аминокислотному остатку). Возможно, это сходство имеет определенное значение для организма. Так как изолейцин и метионин являются гидрофобными аминокислотными остатками с длинной боковой цепью, замена остатка изолейцина на остаток метионина в последовательности белка (и наоборот) может повлиять на выполнение белком его функции в меньшей степени, чем замена на большинство других аминокислотных остатков.
Таким образом,
discontiguous MegaBLAST является более точным инструментом, чем
MegaBLAST
и BLASTN, и
позволяет выявлять более отдаленные гомологи.
Поиск осуществлен с использованием локальной версии программы FASTA на сервере kodomo-count. Пороговое значение e-value принято равным 10. Запуск программы осуществлен следующей командой Linux:
fasta34 trna.fasta bs_genome.fasta -O fasta_res.txt -E 10 -b 20 -d 20
Выдача программы приведена здесь.
С помощью FASTA были выявлены четыре участка генома B.subtilis, сходные с участками гена ileV. Одна из находок имеет достаточно низкое значение e-value (1.1×10-22), значение e-value остальных трех находок превышает 1. По данным записи EMBL AL009126, находка с наименьшим значением e-value соответствует гену trnO-Ile, кодирующему тРНКIle. Данный ген был выявлен также с помощью BLASTN, MegaBLAST и discontiguous MegaBLAST. Остальные находки представляют собой короткие участки последовательностей, сходные с участками гена IleV и прилежащие к гену trnO-Ile. Так как эти участки не входят в состав генов тРНК, их сходство с последовательностью ileV является следствием случайного совпадения оснований.
Появление таких участков в списке находок может быть объяснено особенностями алгоритма FASTA. Скорее всего, в связи с небольшим удалением от гомолога гена ileV (trnO-Ile), эти участки были включены в состав фрагмента последовательности генома B.subtilis, подлежащему локальному выравниванию по алгоритму Смита-Ватермана. Алгоритм Смита-Ватермана является очень чувствительным и, при высоком пороговом значении e-value, способен выдать большое количество ложных находок.
Использование программой FASTA алгоритма построения выравниваний, который отличается от алгоритма, используемого программами BLAST, привело к тому, что длина выравнивания лучшей находки FASTA (и, следовательно, вес выравнивания и ее e-value) незначительно отличаются от соответствующих параметров лучших находок программ BLASTN, MegaBLAST и discontiguous MegaBLAST. Следует отметить, что все находки, сделанные программой FASTA, находятся в начале генома B.subtilis. Гомологи гена ileV, находящиеся в конце генома, найдены не были.
Табл. 2. Результаты поиска участков генома B.subtilis, сходных с последовательностью гена ileV E.coli.
Программа |
|
|
|
|
Длина якоря |
|
|
11 | 3 |
Число находок с e-value < 0.01 |
|
0 | 3 | 1 |
Характеристика лучшей находки |
||||
E-value |
|
- | 2×10-23 | 1.1×10-22 |
Длина выравнивания |
|
- | 72 | 76 |
Вес выравнивания (бит) |
|
- | 103 | 93.6 |
Координаты в геноме |
31935-32006 |
- |
11467-11538 31935-32006 |
11463-11538 |
Аннотация лучшей находки в записи EMBL |
||||
Имя гена |
trnA-Ile |
- |
trnA-Ile |
trnO-Ile |
Продукт гена |
|
- | тРНКIle | тРНКIle |
* Приведены результаты поиска при длине якоря,
равной 28 bp. При проведении поиска с якорем из 11
bp результаты не отличались от результатов поиска с помощью
программы BLASTN.
1. М.Сингер, П.Берг Гены и геномы, т. 1. М.:"Мир", 1998,
стр.156.
© Куравский Михаил Львович, 2006