В 7 практикуме я исследовала белок Type III effector DspE. Чтобы сделать задание я скачала последовательность в формате fasta и загрузила его на ncbi. При следующих параметрах программа выдала мне это 3 результата.
Database: UniProtKB/Swiss-Prot
Algorithm: blastp (protein-protein BLAST)
Max target sequences:100
Expect threshold:0.05
Word size: 5 Max matches in a query range: 0
Matrix:BLOSUM62
Gap Costs: Existence: 11 Compositional adjustments: Conditional compositional score matrix adjusment
Я попробовала поменять параметр Word size, но увы результат был точно таким же, чтож работаем с тем, что есть.
Далее в программе JalView провела множественное выравнивание:(проект)
Все 3 аминокислотных последовательности имеют много коротких сходных участков: 444-445, 481-482, 490-491, 1022-1024, 1082-1084, 1253-1257, 1259-1265. При этом большинство инделей находятся в начале, в середине же и в конце их достаточно мало.
Для выполнения 2 задания я выбрала белок из вируса Puumala virus.
В качестве зрелого белка я выбрала Glycoprotein N с координатами 24..658.
С помощью команды seqret 'sw:gp_puumk[24:658]' gp_puumk.fasta я вырезала последовательность зрелого белка в отдельный файл в fasta-формате.
Файл с последовательностью (Glycoprotein N).
В результате работы программы BLAST к Glycoprotein N были получены 19 последовательности (текстовая выдача). Далее, как в задании 1 я сделала множественное выравнивание (проект).
Судя по полученному результату последовательности очевидно гомологичные, так как мы видим большое количество схожих участков.
Я проведа аналогичный поиск с дополнительно заданным параметром Viruses (taxid:10239) в окошке Organism. Число находок не изменилось.
Однако E-value (отличный от 0, разумеется) у одной находоки изменился. Например у ID: Q8JSZ3.1 E-value изменился с 0.035 (без параметра Organism) до 0.001. Воспользуюясь формулой E-value2/E-value1*100%, я выяснила, что доля вирусных белков составляет примерно 3%.