Программа BLAST

Поиск гомологов белка в Swiss-Prot с использованием Protein BLAST

В процессе выполнения задания были найдены потенциальные гомологи 5-формил-3-гидрокси-2-метилпиридин-карбоксилат 5-дегидрогеназы из Mezorhizobium japonicum (Uniprot AC:Q988C8). Параметры, использованные при запуске BLAST, описаны ниже в таблице 1, полученные результаты доступны по ссылкам: полный текст результата и выбранные для множественного выравнивания последовательности.

Таблица 1. Параметры запуска BLAST

Параметр	Значение
AC	Q988C8
Job title	Q988C8:RecName: Full=5-formyl-3-hydroxy-2-methylpyridine...
Database	UniprotKB/Swiss-Prot(swissprot)
Organism	-
Algorithm	blastp (protein-protein BLAST)
Max target sequences	50
Short querles	Automatically adjust parameters for short input sequences
Expect threshold	10
Word size	6
Max matches in a query range	0
Matrix	BLOSUM62
Gap Costs	Existence: 11 Extension: 1
Compositional adjustmants	Conditional compositional score matrix adjustment
Filter	-
Mask	-

По результатам работы программы видно, что процент совпадения найденных последовательностей с исходным белком не очень высокий и составляет в среднем 31-35%, при этом процент покрытия последовательностей выравниванием составляет 70-90%, что позволяет все же сделать предположение о гомологии. Для построения множественного выравнивания были выбраны белки со следующими АС: Q988C8, Q8CUWO, Q4V182, Q63MT0, Q62DG4, Q93RX5. По ссылке можно скачать соответствующий fasta-файл с выравнянными последовательностями. Для построения выравнивания были использованы возможности Uniprot. В результате построения множественного выравнивания был сделан вывод, что они с высокой долей вероятности гомологичны между собой, но доли аминокислотных остатков, совпадающих у найденных белков и исходного, невелика. Тем не менее присутствуют участки с высокой долей совпадений с 91 по 104, с 125 по 132, с 195 по 221 аминокислотный остаток.

Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

Из найденных по запросу taxonomy:"Viruses [10239]" name:polyprotein был выбран Polyprotein P1234, обнаруженный у Western equine encephalitis virus (WEEV) - вируса западного энцефалиомиелита лошадей. Идентификаторы полипротеина: ID: POLN_WEEV, AC: P13896. Для исследования был выбран mRNA-capping enzyme nsP1 - фермент, катализирующий кэпирование мРНК. Его id: PRO_0000228803, положение гена: с 1 по 533 аминокислотный остаток. С помощью команды seqret "sw:poln_weev[1:533]" nsP1.fasta нужный участок был вырезан из последовательности, заголовок и описание в полученном fasta-файле изменены вручную с использованием редактора nano.

Далее был произведен поиск гомологов выбранного белка с помощью программы BLAST. Параметры были применены те же, что и в предыдущем задании, но вместо АС исходная последовательность была задана fasta-файлом. Далее по ссылкам можно увидеть полную выдачу программы и белки, выбранные для множественного выравнивания.

Полученный с использованием функций Uniprot файл, содержащий выравнянные последовательности, потенциально гомологичные исходной, был использован для построения множественного выравнивания. В исходном выравнивании части полипротеинов, выравнявшиеся с исследуемым белком, заняли участок со 2 по 538 аминокислотный остаток. В выравнивании, полученном после удаления негомологичных участков, присутствуют длинные участки с высокой долей консервативных остатков: 35-55, 146-184, 189-212, 241-299, 310-350, 354-397.

Исследование зависимости E-value от объёма банка

В результате поиска потенциальных гомологов белка с применением фильтра по организмам (поиск только среди вирусов) был получен следующий результат . Примечательно, что и запрос без уточнения организма, и запрос исключительно по вирусным белкам приводят в качестве результата 26 последоватеьностей, первые 25 из которых совпадают. Это свидетельствует о том, что данный белок и его возможные гомологи распространены преимущественно среди вирусов, а наличие его у каких-либо клеточных организмов может свидетельствовать о горизонтальном переносе генов. Значения E-value для большинства найденных последовательностей составляют "машинный ноль", но для белков с AC Q8QL53 и Q8JJX1 значения заметно отличаются и составляют при поиске по всей базе данных 1е-125 и 2е-124, а для вирусных белков - 6е-127 и 7е-126. Уменьшение этих значений более чем на порядок происходит из-за уменьшения рассматриваемого объема базы данных. Исходя из формулы для расчета E-value, его значение прямо пропорционально размеру базы данных. Другие параметры не были изменены, поэтому можно сделать вывод о том, что общий размер базы данных примерно в 20 раз больше, чем объем базы вирусных белков.

Поиск "гомологов" бессмысленной последовательности

Для создания несуществующей "аминокислотной" последовательности была случайным образом сгенерирована последовательность, оформленная в fasta-файл. При запуске программы BLAST с указанными выше параметрами обнаруживается одна последовательность, процент идентичности для которой составляет 25% при покрытии 4% и E-value = 0.66, что, очевидно, исключает вероятность "гомологии". Для получения большего количества последовательностей максимально возможный E-value был увеличен, а "длина слова" уменьшена до 3. При выполнении запроса получен следующий результат. Найдено 8 последовательностей с идентичностью около 21-24% и покрытием 11-15%. Можно отметить очень большие значения E-value, свидетельствующие о том, что вероятность обнаружения случайных находок с таким же весом выравнивания очень высока.

Как и ожидалось, гомологичных или даже близко похожих последовательностей в базе данных обнаружено не было. Это подтверждает тот факт, что существующие в природе белковые последовательности прошли длительный эволюционный отбор, закрепивший определенные комбинации, обладающий оптимальной для обеспечения устойчивости и выполнения функций структурой. Несмотря на том, что потенциальных последовательностей аминокислот существует несчетное количество, далеко не все их них могут, будучи объединенными, сформировать белок.