Практикум №10

1. Поиск гомологов белка в Swiss-Prot

Для белка с идентификатором INSDC CDS ABK19037.1 (L-lactate transporter) по AC Swiss-Prot (A0LNN5) была запущена программа BLAST для поиска гомологичных белков.

Параметры BLAST, которые были использованы:

- База данных - UniProtKB/Swiss-Prot (swissprot)

- Алгоритм - blastp (protein-protein BLAST)

- Максимальный размер выдачи - 250

- Порог на E-value - 0.05

- Длина слова - 6

- Параметры выравнивания: BLOSUM62 (матрица), Existance: 11 (штраф за гэп), Extension: 1 (штраф за удлинение индела)

- Фильтры на участки малой сложности по умолчанию

Ссылка на текстовую выдачу запроса

Было выбрано 3 белка с наименьшим E-value (за исключением самого белка) и сделано множественное выравнивание.

Ссылка на проект Jalview

Скорее всего выровненные белки гомологичны, т.к. у них есть много участков сходства (39, 70, 78, 94, 111-112, 119, 132, 137, 141, 143, 150, 162, 164-165, 168, 173, 175, 193-194, 205, 211, 216, 226, 312, 318, 339, 389, 393, 438, 446, 450, 455, 465, 474, 488, 492, 496, 498, 505 - полностью одинаковы у всех 4 организмов).

2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина в Swiss-Prot

Выбран полипротеин с ID POLN_AURAV и AC Q86924 организма Aura virus (AURAV).

Выбран белок Protease nsP2, с координатами 540..1345.

Ссылка на последовательность белка в формате fasta

Далее было отобрано 5 находок для множественного выравнивания (аналогично с заданием №1).

Cсылка на текстовую выдачу программы

Cсылка на проект Jalview

3. Исследование зависимости E-value от объёма банка

Для белка из вируса табачной мозаики (Tobacco mild green mosaic virus) E-value изменилось с 2е-07 (для поиска по всем организмам) до 8е-09 (для поиска только по вирусам - viruses).

Можно посчитать количество вирусных белков в базе Swiss-Prot: ((8е-09)/(2е-07))*100% = 4%