|
|||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||
PSI-BLAST. Построение семейства гомологов белка Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) на сайте NCBI предназначен для поиска удаленных гомологов белков и строится на основе уже найденных белков в отличии от BLASTP, который, как упоминалось ранее, находит все последовательности белков сходные с входной последовательностью. Для освоения работы с алгоритмом PSI-BLAST случайным образом был выбран белок с АС: Q9QCL4.
Ниже представлена некоторая информация по выбранному белку, полученная с помощью базы данных Uniprot: Далее был проведен поиск удаленных гомологов с помощью вышеуказанного алгоритма по базе данных Refseq, но результатом стал всего один белок с идентификатором YP_009031.1 и E-value 4e-34, следовательно, будем осуществлять поиск по базе данных nr. Результатом первой итерации стало 55 последовательностей, E-value которых меньше 0.005. Все найденные последовательности белков получены из вирусов семейства Bornaviridae. После второй итеррации добавился еще один белок с идентификатором BAM72615.1 и E-value 0.002. После третьей итерации новых последовательностей не добавилось, следовательно, можно считать, что семейство гомологов выбранного белка сформировано. В таблице 1 вы можете найти информацию о худших и лучших находках каждой итерации. Таблица 1. Протокол итераций PSI-BLAST для белка с АС: Q9QCL4
Следующим действием было построено множественное выравнивание последовательностей созданного семейства гомологов (рис.1.). Вы можете скачать выравнивание в формате fasta. Полученное выравнивание очень консервативное, сильно консервативные широкие блоки расположены на концах последовательностей, а в центрах консервативные блоки уже и их меньше. Посмотрим на позиции с 7 по 12 и с 14 по 18, если не рассматривать последние три последовательности, то почти все вышеуказанные позиции будут абсолютно консервативными. Можно сделать вывод, что, возможно, выбранные блоки являются важными для белка и их отсутствие может означать потерю каких-либо функций белка. Так же стоит обратить внимание на длины последовательностей: в основном длины последовательностей варьируются от 63 до 89 аминокислотных остатков, но есть последовательность длиной 95 а.о. (p10-FLAG, АС: AAC09175) и последовательность длиной 217 а.о. (OFR1, АС: 1702430A). Было решено проверить, не содержит ли C-концевой участок этой аномально длинной последовательности какого-то белкового домена с известной функцией. С помощью базы данных Pfam предположение было подтверждено: белок OFR1 включает в себя два домена BDV_p10 и BDV_p24, первый из которых соответствует исходной последовательности. Для построенного выравнивания в Jalveiw была выбрана раскраска BLOSUM62 и консервативность >70%. Проект в формате jar вы можете скачать здесь.
|
|||||||||||||||||||||||||||
© Alyona Koryagina aakor@fbb.msu.ru
Дата последнего изменения: 10.05.2014 |