Формирование семейства гомологов с использованием PSI-Blast

Из предложенного списка для работы был выбран предсказанный (программно) белок мыши Mus musculus BCL2-like 11 (Apoptosis facilitator), isoform CRA_a длиной 110 аминокислотных остатков из базы данных TrEMBL. Accession number белка - Q3U7X3, ID - Q3U7X3_MOUSE.

На сервере NCBI с помощью программы PSI-BLAST был осуществолён поиск гомологов этого белка, для чего потребовалось 3 итерации (поиск был прекращён, как только очередная итерация не дала новых результатов). В таблице 1 представлены некоторые промежуточные данные для каждой из такой итераций.

Таблица 1. Некоторые параметры PSI-BLAST для каждой итерации
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 74 XP_004478110.1 2*10-8 NP_001089746.1 6*10-3
2 76 NP_001129263.1 7*10-5 XP_003824822.1 1.8*10-2
3 76 XP_004478110.1 3*10-12 XP_002736394.1 3*10-2

После второй итерации к изначально найденным хитам было добавлено 2 новых, но их E-value составлял всего ~10-5. После третьей итерации произошла стабилизация результатов, что отодвинуло эти 2 последовательности до E-value в ~10-12, тем самым образовав скачок E-value на 10 порядок. Теперь можно утверждать, что все явные гомологи из банка данных Refseq были найдены.

Для проверки результатов на сервере NCBI было произведено множественное выравнивание полученных последовательностей (программой COBALT) - изображено на рисунке 1, а также представлено в fasta-файле

Рисунок 1. Множественное выравнивание найденных гомологов. Серым отмечен исходный белок.
На первый взгляд все найденные белки выглядят гомологами, однако:
  1. Белок hypothetical protein LOC100659585, partial саванного слона Loxodonta africana имеет очень похожую последовательность, но также длинный хвост на C-конце и отличается названием. Оставим в выборке.
  2. Отчётливо видны получившиеся блоки. Вот только в разных последовательностях может нехватать какого-либо из них, что весьма странно. Причём каждый блок хотя бы в 1 белке отсутствует. Вывод о том, что эти блоки (они же, видимо, мотивы) не выполняют никакой функции является абсурдным (а он напрашивается, т.к. если белок обходится без какого-либо участка, то этот участок не играет никакой роли). Придётся заключить, что либо белок имеет избыточную структуру (функционально одинаковые домены, потеря 1 из которых никак не сказывается), либо он синтезируется, но плохо выполняет свою функцию в организмах, где он имеет делецию.
  3. Белок bcl-2-like 11 рыбы "Дамского чулка" Danio rerio не вписывается в общую картину и имеет сходство лишь с 1 блоком (и то частичное). Однако он имеет не последний E-value: *10-13. На мой взгляд его стоит удалить из выборки. (На выравнивании он 5-ый снизу)

Дополнительная проверка

На сервере EBI программой Muscle произведено множественное выравнивание 75 последовательностей (белок рыбки был удалён). С полученным результатом можно ознакомиться на рисунке 2 или в fasta-файле

Рисунок 2. Множественное выравнивание гомологов программой Muscle

На данном выравнивании по сравнение с предыдущим намного меньше разрывов в блоках; и по крайней мере первый блок содержится во всех последовательносятях. Из общей колеи выбиваются 2 последних белка: bcl-2-like protein 11 птицы Зебровой амадины Taeniopygia guttata и bcl-2-like protein 11-like Домашней курицы Gallus gallus, которые, видимо, не являются абсолютными гомологами исседуемого семейства белков.