Учебный сайт Мухалевой Лизаветы

PSI-BLAST

       После ознакомления с BLAST, мы приступили к изучению PSI-BLAST (Position-Specific Iterated BLAST). Он предназначен для поиска удаленных гомологов белков, причём профиль для поиска строится на основе уже найденных гомологов.

       Для данного практикума потребовалось выбрать случайную последовательность из данного списка, что было осуществлено при помощи Python: import random -> random.randint(1,15) -> 7 -> exit(). Под числом 7 оказалась последовательность c идентификатором Q3SXS7 в базе RefSeq. При поиске её в БД RefSeq оказалось, что это белок-рецептор фактора некроза опухоли из организма Mus musculus - домовой мыши. Результаты каждой итерации в PSI-BLAST для этой последовательности занесены в таблицу 1.

Таблица 1. Результаты итераций для белка Q3SXS7. Получено с помощью PSI-BLAST.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 75 XP_005422009.1 0.002 XP_004481317.1 0.015
2 105 XP_003918674.1 0.005 XP_003536986.1 0.005
3 168 XP_003443164.1 0.001 XP_003288165.1 0.007
4 168 XP_003443164.1 0.001 XP_005054102.1 0.008

       Первая итерация

       После первой итерации результатом оказалось два окна: хороших последовательностей - 75 штуки, "плохих" - 24 штук. Последний из "хорошего" списка и первый из "плохого" также были не грызунами - средний земляной вьюрок (Geospiza fortis) и девятипоясной броненосец (Dasypus novemcinctus) соответственно. Разница между E-value этих выравниваний: 0.013.

       Вторая итерация

       Для проведения второй итерации я провела отбор найденных последовательностей. В основном, были найдены правильные белка-рецепторы, но также попались неохарактеризованные белки и белки из явно других семейств, поэтому я решила их исключить при проведении второй итерации. Таких исключённых белков набралось 10 штук. В итоге число последовательностей в обоих окнах увеличилось: "хороших" - 105, "плохих" - 128. Также сменились последний лучший (далее ПЛ) - им стал изоформа рецептора, связывающего ГТФ, из организма павиан анубис (Papio anubis) и первый плохой (далее ПП) - соя (Glycine max). Разница между ПЛ и ПП уменьшилась: если после первой итерации она была 0.013, то теперь стала 0.

       Третья итерация

       Для проведения третьей итерации я отбросила уже 18 последовательностей с отличающимся описанием. В итоге было найдено 168 "хороших" последовательностей и 39 "плохих". ПЛ и ПП сменились - стали нильская тиляпия (Oreochromis niloticus) и диктиостелюм (Dictyostelium purpureum) соответственно. Разница увеличилась до 0.006.

       Четвёртая итерация

       Для проведения четвёртой я опять исключила 15 последовательностей, значит, за третью итерацию прибавились только белки-рецепторы и исчезли некоторые неподходящие. По результатам четвёртой итерации в "хорошем" списке оказалось 168 штук, в "плохом" - 77. ПЛ стала нильская тиляпия (Oreochromis niloticus), ПП - мухоловка-белошейка (Ficedula albicollis). Разница: 0.007.
Так как после повторной итерации состав "хорошего" списка не поменялся, я посчитала, что класс белков-гомологов сформирован.

       В итоге для сформированного класса белков-гомологов было построено множественное выравнивание, чей фрагмент показан на рисунке 1 (окраска ClustalX, консервативность более 70%). Данное выравнивание можно скачать здесь:.fasta и .jar.

Рисунок 1. Множественное выравнивание белков-гомологов (позиции №№ 490-697). Получено с помощью JalView.

© Mukhaleva Elizaveta, FBB MSU, 2013
Дата последнего изменения: 01.05.2014

Valid HTML 4.01 Strict Правильный CSS!