Программа PSI-BLAST


  1. Провел итеративный поиск по банку Swiss-Prot программой PSI-BLAST для 4 последовательностей белков. Для каждого из них выполнял до пяти итераций, пока появлялись новые последовательности выше порога 0.005 на E-value (если список стабилизировался раньше, останавливался на этом).
    По результатам поиска была заполнена следующая таблица:
    ID белка AC белка Число итераций Для первой итерации Для последней итерации
    Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
    MINC_ECOLI P18196 5 124 0.005 0.005 240 0.002 0.015
    SSRP_ECOLI P0A832 2 449 3.10-10 5.0 449 8.10-31 0.61
    NUSB_ECOLI P0A780 4 322 0.003 0.008 383 2.10-12 0.032
    DPS_ECOLI P0ABT2 5 45 0.002 0.037 83 0.004 0.006

    Для первой последовательности (MINC_ECOLI) итерации "не сошлись" даже после пяти последовательных итераций. В данном случае PSI-BLAST не смог отделить белки, схожие с исходным (MINC_ECOLI), от массы других белков. Причем, после третьей итерации в списке белков выше порога (0.005) оказались белки семейства MINC за исключением всего одного, попавшего в список после третьей итерации, белка FRMA_PASPI из семейста FRMA, не схожего с исходным белком (что видно даже из различия названий семейств, содержащих эти белки). Таким образом, после третьей итерации мы получили почти "сходящуюся" итерацию, в которой было найдено 144 белка семейства MINC и всего один белок (явно лишний) из семейства FRMA (FRMA_PASPI). Именно этот лишний белок вызвал при последующих итерациях включение в список массы других белков из семейств FRMA, ADHX и множества других семейств, имеющих слабое отношение к исходному белку MINC_ECOLI.
    Что касается "разрыва" между худшей находкой выше порога и лучшей находкой ниже порога, то прекрасно видно, что в последующих итерациях он становится больше, чем в первоначальной. Как видно из таблицы, после первой итерации он был равен нулю, а после пятой - чуть меньше одного порядка (худшая находка выше порога имеет E-value 0.002, а лучшая находка ниже порога имеет E-value 0.015). Это не очень большое изменение "разрыва" (по сравнению со "сходящимися" итерациями), однако он, все равно, отражает общую закономерность, заключающуюся в увеличении "разрыва" при увеличении числа проводимых итераций. Самым интересным, на мой взгляд, является то, что после третьей итерации (когда у нас появился один явно лишний белок), если посмотреть на "разрыв" между самой худшей находкой среди белков семейства MINC и этим лишним белком (FRMA_PASPI), то он составляет целых 7 порядков (!!!) (E-value худшей находки среди MINC равен 5.10-10, в то время как E-value FRMA_PASPI равен 0.001). Это говорит, безусловно, как раз о том, что белок FRMA_PASPI в списке явно лишний и итерация была бы "сходящейся", если бы порог был чуть ниже (что я и сделал во втором задании).
    Если посмотреть на E-value самой лучшей находки после первой итерации, он равен 3.10-134 (это сам белок MINC_ECOLI), в результате последующих итераций E-value этой находки падает (что вполне объяснимо, ведь поиск ведется с каждым разом по более мягким критериям (полученных в результате множественных выравниваний), в результате чего находится большее количесвто последовательностей). После второй итерации E-value MINC_ECOLI составляет уже 2.10-93, после третьей итерации еще больше - 5.10-82 и так далее. Если посмотреть на изменение E-value среднего белка в списке (ближе к порогу) при последовательных итерациях, то он, наоборот, с каждым разом будет все меньше и меньше (так как с каждым разом этот белок будет все лучше подходить под критерий, по которому будут искаться белки, ведь критерий этот будет строиться на основании множественного выравнивания, в которое будет входить последовательность этого белка (и если вначале он не сильно подходил под критерий (позиционно-специфичной матрицы), то с каждым разом подходить будет все лучше (позиционно-специфичная матрица будет строиться с большим учетом последовательности этого белка))). Так, например, после первой итерации E-value белка MINC_PROMP составил 8.10-4, после второй итерации - 5.10-19, после третьей - 1.10-29 и так далее.

    Для второй последовательности (SSRP_ECOLI) "сошлась" уже вторая итерация, то есть список белков, попавших в него в результате первой итерации, после второй итерации не поменялся (изменились лишь E-value белков в списке). Причем, кроме белков семейства SSRP в список никакие белки не попали, то есть в данном случае PSI-BLAST свою функцию выполнил с успехом. На этом примере отчетливо виден "разрыв" между худшей находкой выше порога и лучшей находкой ниже порога (после первой итерации он составляет 10 порядков, после второй - 30 порядков). Такой большой "разрыв" нормален в том случае, когда мы имеем "сходящиеся" итерации.
    Что касается изменений E-value, то закономерность этих изменений ровно такая же, как и для первой последовательности (MINC_ECOLI). В данном случае после первой итерации E-value лучшей находки в списке (самого белка SSRP_ECOLI) - 4.10-91, после второй итерации - 2.10-74. E-value белка SSRP_HELPY, расположенного ближе к порогу, после первой итерации равен 4.10-16, после второй итерации - 3.10-37

    Для третьей последовательности (NUSB_ECOLI) итерация тоже "сошлась", но не вторая, как во втором случае, когда PSI-BLAST срау же внес в список все нужные белки, а лишь четвертая. Полученный в результате последней итерации список включает в себя белки семейств NUSB и RSMB, содержащих белки, выполняющие сходные функции (белки обоих семейств участвуют в той или иной регуляции процесса транскрипции). Закономерность изменений E-value ровно такая же, как в первом и втором случае. E-value лучшей находки выше порога (самого белка NUSB_ECOLI) после первой итерации составляет 5.10-76, после второй - 7.10-54 и так далее. E-value белка NUSB_PROAC, расположенного ближе к порогу, после первой итерации составляет 7.10-6, после второй - 6.10-29.
    Но лучше всего на этом примере видна разница между "разрывами" между худшей находкой выше порога и лучшей находкой ниже порога после первой итерации (когда в список еще не входят многие нужные нам белки) и после четвертой итерации (когда эти белки в список уже вошли). "Разрыв" после первой итерации не составляет и одного порядка, в то время как "разрыв" после четвертой итерации составляет 11 порядков. Эта разница, безусловно, колоссальна и говорит о том, что после четвертой итерации мы имеем действительно готовый полный список нужных нам белков, в то время как первая итерация такого списка нам, увы, не дала.

    И, наконец, для четвертой последовательности (моего белка DPS_ECOLI), как и в самом первом случае, "сходящейся" итерации не нашлось. Причем, в этом случае ситуация вхождения в список лишнего белка не так очевидна, как в первом случае. После четвертой итерации в списке, в основном, содержатся белки из семейств DPS и BFR (бактериоферритинов). Но вместе с некоторыми белками из этих семейств после четвертой итерации в список вошел белок FTN_BACFR, E-value которого на 8 порядков больше E-value предпоследнего белка в списке. Возможно, если бы мы ограничили порог строже, то итерация являлась бы "сходящейся", но в данном случае мы не можем дать точного ответа, как в первом случае, поэтому этот вариант нужно проверять на практике, вводя другой параметр порога (что я сделал во втором задании).
    Ну и закономерность изменений E-value в этом случае ровно такая же, как во всех предыдущих случаях. E-value лучшей находки (DPS_KLUCI) после первой итерации составляет 1.10-93, после второй - 2.10-61 и так далее. E-value белка DPS_HELPY, расположенного ближе к порогу, после первой итерации составлял 1.10-4, после второй - 8.10-29 и так далее. Что касается разницы в "разрыве" между лучшей находкой ниже порога и худшей находкой выше порога после первой итерации и последней, то ее почти не наблюдается: ни в том, ни в другом случае "разрыв" не достигает даже половины порядка. Это говорит о том, что в данном случае полезной информации и "сходящейся" итерации PSI-BLAST не предъявил, и нужно либо изменить параметры порога, либо найти другой способ изучения сходства белка DPS_ECOLI с другими белками.


  2. Для первой и последней последовательности (MINC_ECOLI и DPS_ECOLI), для которых итерации "не сошлись", провел поиск вновь, изменив порог с 0.005 на 0.001.

    Что касается первой последовательности (MINC_ECOLI), то с таким параметром порога третья итерация стала "сходящейся", как я и предполагал в первом задании. Это произошло из-за того, что с таким параметром порога после третьей итерации в список не попал белок FRMA_PASPI, относящийся совершенно к другому семейству белков, E-value которого составляет 0.001. Таким образом, максимальный параметр порога, при котором итерация будет "сходящейся", и будет составлять 0.001 (при больших порогах белок FRMA_PASPI войдет в список и повлечет за собой включение в список множества других несхожих с MINC_ECOLI белков).

    Гораздо сложнее обстоит дело с последней последовтельностью (DPS_ECOLI). Изменение порога с 0.005 на 0.001 никак не повлияло на "сходимость" итераций, с порогом 0.001 PSI-BLAST не смог дать готового полного списка сходных белков. Тогда я решил изменить порог с 0.005 на 5.10-4 (то есть сделать его еще ниже, чем 0.001). С таким порогом PSI-BLAST после третьей итерации выдал готовый стабилизированный список, то есть третья итерация "сошлась". Однако, просмотрев список белков ниже порога, я заметил, что в нем присутствует один белок с порогом 0.001 из семейства DPS (DPS_SULSO). Получается, что, хоть итерация и "сошлась", но полного списка сходных белков (хотя бы всех белков, принадлежащих тому же семейству) PSI-BLAST выдать не смог. Если же мы увеличим порог до 0.001 (чтобы этот недостающий белок DPS_SULSO вошел в список выше порога), то в список войдет и много ненужных белков, в результате чего итерация "не сойдется". Так что в данном случае с последовательностью DPS_ECOLI лучше применять другие методы сравнения его с другими белками, PSI-BLAST в данном случае полного положительного результата дать не смог (хотя в с порогом в 5.10-4 его точность оказалась наилучшей в данном случае).

Назад