Практикум 10. Программа BLAST

Поиск гомологов белка с помощью BLAST

В практикуме 7 использовался белок, обеспечивающий защиту ДНК во время голодания (DNA protection during starvation protein) из археи Halobacterium salinarum. При выравнивании с помощью Protein BLAST применялись следующие параметры: поиск по базе данных Swiss-Prot, алгоритм - protein-protein BLAST, параметр automatically adjust parameters for short input sequences, порог E-value - 0,05, размер слова - 5, Max matches in a query range - 0, матрица - BLOSUM62, штраф за открытие гэпа - 11, за расширение - 1, conditional compositional score matrix adjustment, без Filters and Masking; в качестве запроса использовался AC белка (Q9HMP7). Выдача в текстовом формате доступна для скачивания по ссылке. Множественное выравнивание первых 6 находок (не считая исходного белка) с исходным белком было построено в Jalview с помощью Muscle with Defaults. По полученному выравниванию видно, что данные белки обладают высоким сходством по отношению друг к другу и явно гомологичны, сильно выделяющихся среди них нет.

Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

Для второй части задания был выбран структурный полипротеин вируса паралича кузнечиков (ID - POLS_CRPVC, AC - P13418), полное название вируса - Cricket paralysis virus (isolate Teleogryllus commodus/Australia/CrPVVIC/1968). Для выравниваний использовался Capsid protein 2, который в полипротеине занимает позиции с 341 по 635. Параметры BLAST использовались те же, что и ранее, из полученной выдачи были выбраны первые 6 белков, не считая исходного, и выровнены с ним также в в Jalview с помощью Muscle with Defaults. Полученное выравнивание интерпретировать сложно: оно часто прерывается большими инделями, а высококонсервативных участков мало. Наиболее сильно выделяются белок Q8B3M2, имеющий наибольшее количество вставок среди остальных, и собственно исходный зрелый белок, в котором, наоборот, больше всего делеций относительно других. Но негомологичными эти белки я назвать не могу хотя бы ввиду того, что E-value находок достаточно низкое (самое большое - 2*10-6). В целом, высокая степень различия объясняется быстрой эволюцией вирусных белков.

Исследование зависимости E-value от объёма банка

При поиске гомологов того же вирусного белка, используя ограничение по таксону (Viruses), список находок не изменяется, а вот E-value для них - уменьшается. Например, для белка Q9DSN8 из вируса острого паралича пчёл при уменьшении банка E-value снизилось с 2*10-11 до 10-12. Используя формулу E = Kmn·e-lS (где n - размер банка), можно рассчитать, какую примерно долю в Swiss-Prot занимают вирусные белки - а именно, около 5%.