Практикум 10

Отчет по практикуму 10

Поиск гомологов белка бактерии

При поиске гомологов выданного мне белка при помощи программы BLAST в базе Swissprot с различными параметрами поиска (в том числе и теми, которые я выставлял в дальнейшем), мне не удалось найти более одного результата. Поэтому я использовал для выполнения задания резервный белок с AC: CAC11654.1.

Для поиска с использованием BLAST я ввел следующие параметры:
AC: CAC11654.1;
База данных: swissprot;
Oрганизм: —;
Алгоритм: blastp;
Максимальное кол-во отображаемых последовательностей: 100;
Short queries: off;
Пороговое значение для E-value: 0.01;
Word size: 2;
Ограничение на кол-во результатов, совпадающих с запросом: 0;
Матрица: BLOSUM62;
Штрафы за введение и продление инделя: 11,1;
Compositional adjustments: conditional compositional score matrix adjustment;
Фильтр для участков малой сложности;
Mask for lookup table only: off;
Mask lower case letters: off;
    

Текстовая выдача программы, содержащая 85 результатов доступна по ссылке. Для множественного выравнивания, помимо белка, гомологов которого я искал, среди результатов поиска BLAST я отобрал первые 5 по возрастанию E-value. Результаты выравнивания, полученного с помощью программы muscle с параметрами по умолчанию, доступны по ссылке. Судя по всему, все белки в выравнивании родственны, поскольку имеют несколько довольно сходных участков, на это также указывает низкое значение E-value (менее 2*10^(-25)).

Поиск гомологов зрелого вирусного белка

Для задания я выбрал белок с ID: POLN_SLDV и AC: Q8QL53. Это полипротеин вируса сонной болезни форели (Sleeping disease virus). Я решил использовать фрагмент полипротеина, соответствующий зрелому белку РНК-зависимой РНК-полимеразе nsP4 (RNA-directed RNA polymerase nsP4), с координатами 39-275. При помощи средств EMBOSS я вырезал этот фрагмент и создал файл с его последовательностью в FASTA-формате (файл доступен по ссылке). Затем я загрузил этот файл в поле Enter Query Sequence программы BLAST, остальные параметры выставил такие же, как и в предыдущем запросе. По запросу было найдено 25 результатов, из которых я выбрал первые 5 по возрастанию E-value для множественного выравнивания (исключая первый результат, являющийся полипротеином из которого я вырезал зрелый белок). Текстовая выдача BLAST доступна по ссылке. Множественное выравнивание в формате проекта Jalview, в котором обрезаны все буквы, невыровненные с буквами последовательности зрелого вирусного белка, доступно по ссылке. Последовательности белков в выравнивании имеют очень много консервативных участков по всей длине выравнивания, что свидетельствует о наличии гомологии, как и низкое значение E-value (менее 7*10^(-68)).

Исследование зависимости E-value от объема банка

При указании таксона Viruses (taxid:10239), список находок остался неизменным, по-видимому, это связано с тем, что за пределами группы вирусов использование организмами РНК-зависимых РНК-полимераз сильно ограничено. У белка с кодом доступа Q9JGL0 значение E-value изменилось с 1*10^(-69) до 4*10^(-71). Известна формула:

Поскольку все величины, от которых зависит E-value, кроме объема банка остались неизменными, можно считать, что отношение значений E-value равно отношению объемов банков. Тогда получается, что в Swissprot примерно 4% белков принадлежат вирусам.