Для белка с идентификатором INSDC CDS ABK19037.1 (L-lactate transporter) по AC Swiss-Prot (A0LNN5) была запущена программа BLAST для поиска гомологичных белков.
Параметры BLAST, которые были использованы:
- База данных - UniProtKB/Swiss-Prot (swissprot)
- Алгоритм - blastp (protein-protein BLAST)
- Максимальный размер выдачи - 250
- Порог на E-value - 0.05
- Длина слова - 6
- Параметры выравнивания: BLOSUM62 (матрица), Existance: 11 (штраф за гэп), Extension: 1 (штраф за удлинение индела)
- Фильтры на участки малой сложности по умолчанию
Ссылка на текстовую выдачу запроса
Было выбрано 3 белка с наименьшим E-value (за исключением самого белка) и сделано множественное выравнивание.
Скорее всего выровненные белки гомологичны, т.к. у них есть много участков сходства (39, 70, 78, 94, 111-112, 119, 132, 137, 141, 143, 150, 162, 164-165, 168, 173, 175, 193-194, 205, 211, 216, 226, 312, 318, 339, 389, 393, 438, 446, 450, 455, 465, 474, 488, 492, 496, 498, 505 - полностью одинаковы у всех 4 организмов).
Выбран полипротеин с ID POLN_AURAV и AC Q86924 организма Aura virus (AURAV).
Выбран белок Protease nsP2, с координатами 540..1345.
Ссылка на последовательность белка в формате fasta
Далее было отобрано 5 находок для множественного выравнивания (аналогично с заданием №1).
Cсылка на текстовую выдачу программы
Для белка из вируса табачной мозаики (Tobacco mild green mosaic virus) E-value изменилось с 2е-07 (для поиска по всем организмам) до 8е-09 (для поиска только по вирусам - viruses).
Можно посчитать количество вирусных белков в базе Swiss-Prot: ((8е-09)/(2е-07))*100% = 4%