Отчет по практикуму 10
Поиск гомологов белка бактерии
При поиске гомологов выданного мне белка при помощи программы BLAST в базе Swissprot с различными параметрами поиска (в том числе и теми, которые я выставлял в дальнейшем), мне не удалось найти более одного результата. Поэтому я использовал для выполнения задания резервный белок с AC: CAC11654.1.
Для поиска с использованием BLAST я ввел следующие параметры: AC: CAC11654.1; База данных: swissprot; Oрганизм: —; Алгоритм: blastp; Максимальное кол-во отображаемых последовательностей: 100; Short queries: off; Пороговое значение для E-value: 0.01; Word size: 2; Ограничение на кол-во результатов, совпадающих с запросом: 0; Матрица: BLOSUM62; Штрафы за введение и продление инделя: 11,1; Compositional adjustments: conditional compositional score matrix adjustment; Фильтр для участков малой сложности; Mask for lookup table only: off; Mask lower case letters: off;
Текстовая выдача программы, содержащая 85 результатов доступна по ссылке. Для множественного выравнивания, помимо белка, гомологов которого я искал, среди результатов поиска BLAST я отобрал первые 5 по возрастанию E-value. Результаты выравнивания, полученного с помощью программы muscle с параметрами по умолчанию, доступны по ссылке. Судя по всему, все белки в выравнивании родственны, поскольку имеют несколько довольно сходных участков, на это также указывает низкое значение E-value (менее 2*10^(-25)).
Поиск гомологов зрелого вирусного белка
Для задания я выбрал белок с ID: POLN_SLDV и AC: Q8QL53. Это полипротеин вируса сонной болезни форели (Sleeping disease virus). Я решил использовать фрагмент полипротеина, соответствующий зрелому белку РНК-зависимой РНК-полимеразе nsP4 (RNA-directed RNA polymerase nsP4), с координатами 39-275. При помощи средств EMBOSS я вырезал этот фрагмент и создал файл с его последовательностью в FASTA-формате (файл доступен по ссылке). Затем я загрузил этот файл в поле Enter Query Sequence программы BLAST, остальные параметры выставил такие же, как и в предыдущем запросе. По запросу было найдено 25 результатов, из которых я выбрал первые 5 по возрастанию E-value для множественного выравнивания (исключая первый результат, являющийся полипротеином из которого я вырезал зрелый белок). Текстовая выдача BLAST доступна по ссылке. Множественное выравнивание в формате проекта Jalview, в котором обрезаны все буквы, невыровненные с буквами последовательности зрелого вирусного белка, доступно по ссылке. Последовательности белков в выравнивании имеют очень много консервативных участков по всей длине выравнивания, что свидетельствует о наличии гомологии, как и низкое значение E-value (менее 7*10^(-68)).
Исследование зависимости E-value от объема банка
При указании таксона Viruses (taxid:10239), список находок остался неизменным, по-видимому, это связано с тем, что за пределами группы вирусов использование организмами РНК-зависимых РНК-полимераз сильно ограничено. У белка с кодом доступа Q9JGL0 значение E-value изменилось с 1*10^(-69) до 4*10^(-71). Известна формула:
Поскольку все величины, от которых зависит E-value, кроме объема банка остались неизменными, можно считать, что отношение значений E-value равно отношению объемов банков. Тогда получается, что в Swissprot примерно 4% белков принадлежат вирусам.