Практикум 10. Программа BLAST

Задание 1

Я запустил BLAST с параметрами:

Query Sequence: BAD74908.1
Database: UniProtKB/Swiss-Prot(swissprot)
Organism: --
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 1000
Automatically adjust parameters for short input sequences
Expect threshold: 0.05
Word size: 3
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
+Low complexity regions filter

Результат работы программы в виде текстового файла по ссылке

Я выбрал несколько записей из верха списка и построил при помощи JalView множественное выравнивание данной мне последовательности и выбранных. Проект с выравниванием в виде файла по ссылке. Все выбранные белки гомологичны потому что в них много консервативных колонок и участков по несколько колонок, расположенных примерно равномерно по всей длине выравнивания.

Задание 2

Я выбрал аннотированный вирусный пролипротеин P1234:

ID: POLN_EEVVC
AC: Q8V294; Q5IBC3; Q8UYH5; Q8V295;
"Организм": Venezuelan equine encephalitis virus (strain CPA201) (VEEV)

В нем из нескольких белков, которые он кодирует, выбрал RNA-directed RNA polymerase nsP4 (РНК-зависимая РНК-полимераза) с координатами 1891-2497.

Скачал и вырезал из последовательности всего полипротеина только выбранный зрелый белок при помощи команд:

wget 'https://www.uniprot.org/uniprot/?query=organism%3Aveev+name%3Apolyprotein+mnemonic%3APOLN_EEVVC&sort=score&format=fasta' -O APOLN_EEVVC.fasta
cat APOLN_EEVVC.fasta | seqret -filter fasta::stdin:[1891:2497] > nsP4.fasta

Далее с теми же самыми настройками программы BLAST я получил множество выравниваний (файл с результатом работы) зрелого белка nsP4 с другими. Выбрал несколько и построил множественные выравнивания. Проект JalView. Все выбранные белки гомологичны, потому что на всей их длине встречаются наборы консервативных колонок, между которыми нет гэпов, хоть и встречаются вариативные участки.

Задание 3

Я ограничил круг организмов, по которым алгоритм BLAST может искать последовательности для выравнивания до группы Viruses. Далее в новом и старом списке результатов выравниваний я нашел строк с выравниванием последовательности данного зрелого белка с одной и той же последовательностью (совпадающие AC). По всему банку E-value был равен 0,013, только по вирусам - 0,0006. Разница в 22 раза. Обратившись к формуле для расчёта E-value (рисунок 1), видим что различается только переменная n, соответствующая длине банка. Значит, вирусные белковые последовательности суммарно в длину составляют примерно 4,6% суммы длин всех последовательностей в банке.

Рисунок 1. Формула для расчёта E-value.