Главная страница > Третий семестр > Программы пакета BLAST
Был проведен поиск генов, кодирующих белки, сходные с GlmS E.coli. Поиск осуществлялся по неаннотированным геномам следующих орнанизмов: Pseudomonas aeruginosa, Pasteurella multocida и Vibrio cholerae. По данным NCBI Entrez Taxonomy, все эти организмы являются достаточно близкими родственниками E.coli и относятся к одному и тому же классу Gammaproteobacteria.
Перед проведением поиска с помощью программы formatdb были созданы индексные файлы к каждому из геномов отдельно, а также индексный файл к трем геномам вместе. В каждом случае программа создала по три файла с расширениями nhr, nin и nsq. В файле с расширением nsq (nucleotid sequences) содержится информация о нуклеотидных последовательностях, сжатая в 4 раза. Этот файл значительно превосходит по объему два других. Файлы nhr и nin (nucleotid indices) являются вспомогательными и содержат, соответственно, перечисление заголовков записей, составляющих полный геном, и перечисление индексов (см. документацию к программе formatdb).
Для проведения поиск была использована программа TBLASTN пакета BLAST, которая предназначена для выявления участков нуклеотидных последовательностей, продукты транслирования которых в шести рамках сходны с входной белковой последовательностью. Пороговое значение e-value выбрано равным 0.01. Результаты поиска приведены в табл. 1.
Табл. 1. Результаты поиска генов, кодирующих белки, сходные с GlmS E.coli,
проведенного с помощью
программы TBLASTN по геномам Pseudomonas aeruginosa, Pasteurella multocida и Vibrio cholerae.
Название организма |
|
|
|
|
Поиск по трем геномам отдельно |
||||
Характе- ристика лучшей находки |
E-value |
|
|
|
Координаты выравнивания в записи генома |
|
|
|
|
AC соответствующей записи EMBL |
|
|
|
|
Координаты CDS в записи EMBL |
|
|
|
|
AC UniProt в записи EMBL |
|
|
|
|
Число находок с Е-value < 0,01 |
|
|
|
|
Поиск по трем геномам сразу |
||||
Е-value лучшей находки |
|
|
|
|
Число находок с Е-value < 0,01 |
|
|
|
* В выдаче TBLASTN AC данной записи AE004967. Запись AE004967 была заменена на AE004091 12 июля 2006 г. Очевидно, записи генома P. aeruginosa были взяты из одной из предыдующих версий EMBL. Поиск, проведенный с помощью SRS по EMBL Release, обнаружил запись AE004967 в 87-й версии EMBL. Значения координат CDS взяты из найденной записи.
Выдачи программы TBLASTN для каждого из геномов приведены ниже.
В каждом из геномов было выявлено четыре участка, транслированные последовательности которых сходны с последовательностью GlmS E.coli. E-value лучших находок в каждом из геномов близки к нулю, веса выравниваний составляют приблизительно 800 ± 50 бит. Наилучшее сходство последовательностью GlmS E.coli наблюдается с транслированной последовательностью ДНК V.cholerae (847 бит), наихудшее - с транслированной последовательностью ДНК P.aeruginosa (743 бита).
Координаты выравниваний лучших находок были сопоставлены с координатами CDS генов, которые включают в себя выравнивания. Для P.aeruginosa, P.multocida и V.cholerae координаты выравниваний практически соответствуют координатам CDS. Для каждого из организмов выравнивания не выходят за пределы CDS соответствующих им генов. В каждом случае один из концевых участков гена длиной 3 н.п. не входит в состав выравнивания (3'-концевой участок генов, расположенных на прямой цепи, и 5'-концевой участок генов, расположенных на комплементарной цепи). Это объясняется тем, что в состав CDS генов в записях EMBL включены стоп-кодоны. В выравнивания, построенные программой TBLASTN, входят только те участки последовательности ДНК, которые предположительно кодируют аминокислотные остатки (стоп-кодоны не кодируют аминокислотных остатков). Таким образом, длины выравниваний TBLASTN меньше длин CDS генов на три нуклеотидные пары, которые соответствуют стоп-кодонам.
Описания генов, координаты CDS которых соответствуют выравниваниям лучших находок (поля /product), говорят о том, что их продукты выполняют ту же функцию, что и GlmS E.coli (являются глюкозамин - фруктоза-6-фосфатамидотрансферазами [изомеризующими]). Высокое сходство аминокислотных последовательностей продуктов лучших находок с последовательностью GlmS E.coli, а также идентичность выполняемых ими функций, позволяют утверждать, что лучшие находки для каждого из организмов являются ортологами GlmS E.coli.
Были рассмотрены все находки, сделанные программой TBLASTN в геноме одного из организмов (V.cholerae), e-value которых не превышает порогового значения (0.01). Ниже приведены белки, координаты CDS генов которых включают в себя координаты выравниваний находок (в скобках указаны коды доступа AC в банке UniProt):
амидофосфорибозилтрансфераза (Q9KT99),
аспарагинсинтетаза B [глутамингидролизующая] (Q9KTB2),
гипотетический консервативный белок (Q9KP53).
По данным банка Pfam, каждый из трех белков содержит участки, гомологичные некоторым участкам последовательности GlmS E.coli. Так, первые два белка включают в себя глутаминамидотрансферазный домен II класса (GATase_II), а третий белок - сахароизомеризующий домен (SIS). Оба домена также входят в состав GlmS E.coli (см. раздел "Доменная структура белка GlmS E.coli"). Следовательно, среди находок, сделанных с помощью программы TBLASTN, присутствуют не только ортологи, но и паралоги GlmS E.coli (то есть белки, имеющие общее происхождение, но выполняющие различные функции). Таким образом, TBLASTN, как и BLASTP, является инструментом для поиска гомологов входных последовательностей (см. раздел "Является ли BLASTP инструментом для поиска ортологов?").
Выдача программы TBLASTN при проведении поиска по трем геномам сразу приведена здесь.
При проведении поиска по трем геномах сразу было выявлено 11 участков, транслированные последовательности которых сходны с последовательностью GlmS E.coli. Лучшие находки в геноме каждого из организма соответствуют лучшим находкам, сделанным при поиске по каждому из геномов отдельно. Значения их весов и весов выравниваний, полученных при поиске по каждому из геномов отдельно, совпадают. Совпадают также и значения e-value, которые в обоих случаях равны нулю.
Значения e-value остальных находок при проведении поиска по трем геномам сразу увеличились по сравнению со значениями e-value тех же находок при поведении поиска по каждому из трех геномов отдельно (например, для второй находки в геноме V.cholerae e-value возросло от 5×10-12 до 2×10-11). Веса выравниваний каждой из находок остались неизменными. Увеличение e-value обусловлено увеличением размера банка последовательностей, по которому осуществлялся поиск (для V.cholerae от 4 млн н.п. до 13 млн н.п., то есть приблизительно в четыре раза). Так как в случайном банке того же нуклеотидного состава, большим в четыре раза, в четыре раза легче найти последовательности, веса выравниваний которых не превышают вес выравнивания находки, для V.cholerae значения e-value находок возросли в четыре раза. Сходные закономерности наблюдаются и для находок из других геномов. Например, e-value последней находки в геноме P.multocida увеличилось приблизительно в шесть раз и превысило порог, равный 0.01. Таким образом, количество находок среди генома P.multocida при проведении поиска по трем геномам сразу уменьшилось до трех . Веса выравниваний находок остались неизменными, так как они не зависят от размера банка, по которому осуществлялся поиск.
Поиск участков геномов P.aeruginosa, P.multocida и V.cholerae, сходных с последовательностью гена, кодирующего GlmS E.coli (glmS E.coli), был проведен с помощью программы BLASTN. Использовались индексные файлы, созданные для проведения поиска с помощью TBLASTN. Пороговое значение e-value выбрано равным 0.01. Выдача программы BLASTN при проведении поиска по трем геномам сразу приведена здесь, информация о лучших находках приведена в табл. 2.
В каждом из геномов выявлено не менее одной записи, отдельные участки которых являются сходными с последовательностью гена glmS E.coli. Например, для генома V.cholerae программа построила шесть выравниваний участков последовательности glmS E.coli с различными участками записи EMBL AE004135 (рис. 1). Наименьшее значение e-value для этих выравниваний составляет 9x10-17. Ниже указаны координаты каждого из шести выравниваний:
3073 - 3167,
3357 - 3399,
3961 - 4078,
4195 - 4229,
4535 - 4694,
4829 - 4905.
Координаты всех выравнивания лежат внутри координат CDS гена, кодирующего ортолог GlmS E.coli (3073 - 4905), причем начальная координата первого и конечная координата последнего выравниваний точно соответствуют координатам CDS гена. Таким образом, программа BLASTN построила выравнивания некоторых фрагментов гена glmS E.coli и сходных с ними участков гена V.cholerae, кодирующего ортолог GlmS E.coli. Сходная ситуация характерна и для лучших находок среди последовательностей геномов P.aeruginosa и P.multocida.
Табл. 2. Результаты поиска генов, сходных
с геном glmS E.coli, проведенного с помощью программы
BLASTN
по геномам Pseudomonas aeruginosa, Pasteurella multocida и Vibrio cholerae.
Характе- ристика лучшей находки |
Геном |
Vibrio cholerae |
E-value лучшего выравнивания | 9x10-17 | |
Координаты выравниваний в записи генома |
3073 -
3167 3357 - 3399 3961 - 4078 4195 - 4229 4535 - 4694 4829 - 4905 |
|
AC соответствующей записи EMBL | AE004135 | |
Координаты CDS в записи EMBL | 3073 4905 (комплем.) | |
AC UniProt в записи EMBL | Q9KUM8 | |
Продукт гена (поле /product) | glucosamine--fructose-6-phosphate aminotransferase (isomerizing) | |
Количество находок с e-value < 0.01 | 4 |
Query: 1460 tgaaagagatctcttacattcacgctgaagcctacgctgctggcgaactgaaacacggtc 1519 ||||||||||||||||||| ||||| |||||||| || || ||||| || || || || | Sbjct: 4535 tgaaagagatctcttacatccacgcagaagcctatgcagcgggcgagctaaagcatggcc 4594 Query: 1520 cgctggcgctaattgatgccgatatgccggttattgttgttgcaccgaacaacgaattgc 1579 | ||||| |||||||||| |||||||| || |||| |||||||| | ||| ||| || Sbjct: 4595 cattggcgttaattgatgcggatatgccagtggttgtggttgcaccaagcaatgaactgt 4654 Query: 1580 tggaaaaactgaaatccaacattgaagaagttcgcgcgcg 1619 | ||||| || |||||||| ||||||||||| || ||||| Sbjct: 4655 tagaaaagcttaaatccaatattgaagaagtgcgtgcgcg 4694 Query: 889 cagatcctcgcctgtggtacttcttataactccggtatggtttcccgctactggtttgaa 948 |||||| ||||||| |||||||||||||| | || ||| | || |||||||||||| Sbjct: 3961 cagatcgtcgcctgcggtacttcttataatgcagggatgacggcacgttactggtttgaa 4020 Query: 949 tcgctagcaggtattccgtgcgacgtcgaaatcgcctctgaattccgctatcgcaaat 1006 ||| |||| ||| | || || ||||||||||| |||||||||||||||||||||| Sbjct: 4021 tcgttagcgggtgtgagctgtgatgtcgaaatcgcgtctgaattccgctatcgcaaat 4078 Query: 1754 cttaccatgtcgcgctgatcaaaggcaccgacgttgaccagccgcgtaacctggcaaaat 1813 |||||||||| || | |||||||| ||||| ||||||||||| |||||||| || ||| Sbjct: 4829 cttaccatgtggctttaatcaaaggtaccgatgttgaccagcctcgtaaccttgctaaag 4888 Query: 1814 cggttacggttgagtaa 1830 |||| || || |||||| Sbjct: 4889 cggtaactgtcgagtaa 4905 Query: 1123 tgtaacgttccgggttcttctctggtgcgcgaatc 1157 ||||||||| ||||||||||||| ||||| ||||| Sbjct: 4195 tgtaacgttgcgggttcttctctcgtgcgtgaatc 4229 Query: 285 ggtggtgcataacggcatcatcgaaaaccatgaaccgctgcgt 327 |||||| || |||||||| ||||||||||||||| ||||||| Sbjct: 3357 ggtggtacacaacggcattatcgaaaaccatgaaatgctgcgt 3399 Query: 1 atgtgtggaattgttggcgcgatcgcgcaacgtgatgtagcagaaatccttcttgaaggt 60 ||||||||||||||||| ||| | || ||||| ||||| || ||||| | | |||| Sbjct: 3073 atgtgtggaattgttggtgcggttgcacaacgcgatgttgctgaaattttagtacaaggc 3132 Query: 61 ttacgtcgtctggaataccgcggatatgactctgc 95 |||| ||||| ||||||||||| ||||||||||| Sbjct: 3133 ctacgccgtcttgaataccgcggctatgactctgc 3167 |
Рис. 1. Выравнивания участков последовательности гена glmS E.coli и сходных с ними участков последовательности гена V.cholerae, кодирующего ортолог GlmS E.coli. Выравнивания построены программой BLASTN.
Причиной разбиения полного выравнивания генов на несколько фрагментов является вырожденность генетического кода. Для большинства аминокислотных остатков третья позиция кодона не имеет значения (то есть кодоны с различной третьей позицией, как правило, кодируют одну и ту же аминокислоту). Таким образом, практически каждый третий нуклеотид гена не находится по давлением отбора. Это приводит к тому, что некоторые участки последовательностей генов близкородственных организмов (какими являются E.coli и V.cholerae) могут различаться по каждому третьему остатку, что подтверждают и выравнивания, представленные на рис. 1.
Если на достаточно протяженном участке последовательностей гомологичных генов третий нуклеотид хотя бы каждого третьего кодона различается, то программа BLASTN не сможет построить выравнивания этих участков (минимальная длина полностью идентичных участков последовательностей ― длина якоря ― должна составлять не менее 11 н.п.). Следовательно, BLASTN не может выявить сходства между некоторыми фрагментами последовательностей генов, и полное выравнивание оказывается разбитым на короткие участки. Кроме того, e-value выравниваний слишком коротких фрагментов может превышать пороговое значение, что приведет к тому, что такие выравнивания будут отсутствовать в выдаче программы.
E-value лучших находок BLASTN значительно выше значений e-value лучших находок TBLASTN (для генома V.cholerae соответственно 9x10-17 и 0). Это может быть обусловлено тремя причинами: увеличением размера банка (каждая аминокислота кодируется тремя н.п.), уменьшением длины выравниваний и тем, что нуклеотидов в пять раз меньше, чем аминокислот. При пороге 0.01 BLASTN позволил выявить гены ортологов GlmS E.coli из каждого генома, но, в отличие от TBLASTN, паралоги GlmS E.coli выявлены не были (выявленный короткий сходный участок последовательностей гена glmS E.coli и участка записи EMBL AE004776 длиной 21 н.п. может быть результатом случайного совпадения нуклеотидов).
Таким
образом, программа BLASTN является менее
чувствительным инструментом поиска, чем TBLASTN, и
позволяет выявлять только гены, кодирующие
ближайшие ортологи продукта входной
последовательности. В связи с этим для поиска
гомологов известного гена или аннотирования новых геномов больше подходит
программа TBLASTN.
© Куравский Михаил Львович, 2006