Учебный сайт Екатерины Швецовой

PSI-BLAST

Для поиска гомологов я выбрала последовательность Q3U7X3. Название соответствующего белка: "BCL2-like 11 (apoptosis facilitator)". Данный белок получен из генома домовой мыши (Mus musculus). Поиск проводился в базе данных Refseq c помощью алгоритма PSI-BLAST.

После первой итерации было получено 242 хороших находки (с E-value ниже порога 0.005) и 26 плохих находок (E-value выше порога). Хорошие находки относились к самым разным организмах (были белки не только грызунов, но, к примеру, волнистого попугайчика, азиатского буйвола и человека), но, т. к. находок из других таксонов было очень много и значения их E-value были достаночно маленькими, я не стала их исключать. К тому же, почти все белки подходили по названию (я исключила из параметра поиска PSI-BLAST только два гипотетических белка с идентификаторами XP_003422055.1 и XP_001505548.2). Из плохих находок я добавила в параметры поиска ещё 3 последовательности, основываясь на сходности их названий с названием исходного белка (это были белки bcl2-like 11 (apoptosis facilitator) гладкой шпорцевой лягушки (Xenopus laevis), BCL2-like 11 рыбы данио-рерио (Danio rerio), bcl-2-like protein 11-like мексиканская тетры (Astyanax mexicanus)).

После второй итерации хороших находок стало 245 (добавились 3 последовательности, отмеченные мной перед итерацией), плохих - 21. Я снова исключила два гипотетических белка, новых последовательностей не добавляла (ничего подходящего в плохих находках не нашлось).

После третьей итерации количество хороших находок не изменилось, поэтому на данном этапе я закончила поиск.

Информация о результатах, полученных после каждой итерации, приведена в таблице 1. Можно заметить, что ступенька E-value между худшей "правильной" находкой и "лучшей" неправильной увеличивается от первой итерации ко второй, затем она немного уменьшается, но это не столь важно, т. к. всё равно третья итерация была скорее проверочной и список найденных белков при переходе от второй итерации к третьей никак не поменялся. Для третьей итерации "ступенька" равна 0,028999997, что является достаточно большим различием. Т. к. чем больше эта ступенька, тем вероятнее, что находки составляют семейство гомологичных белков, можно заключить, что завершение поиска было вполне своевременным.

Таблица 1. Результаты итераций для белка Q3U7X3. Получено с помощью PSI-BLAST.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 242 XP_005139758.1 0.005 NP_001089746.1 0.009
2 245 XP_007228807.1 0.001 WP_022706175.1 0.059
3 245 XP_005139758.1 3e-09 XP_002610635.1 0.029

Когда поиск был закончен, я скачала fasta-файл с выравниванием найденных последовательностей. Наглядное представление множественного выравнивания показано на рис. 1. Проект данного выравнивания в формате .jar здесь.

Выравнивание

Рис. 1. Множественное выравнивание гомологов белка Q3U7X3, найденных в Refseq при помощи PSI-BLAST. Раскраска ClustalX, консервативность 50%.

©Shvetsova Ekaterina, FBB MSU, 2013
Дата последнего изменения: 07.12.2016