Практикум 10. Программа BLAST
Задание 1
Я запустил BLAST с параметрами:
- Query Sequence: BAD74908.1
- Database: UniProtKB/Swiss-Prot(swissprot)
- Organism: --
- Algorithm: blastp (protein-protein BLAST)
- Max target sequences: 1000
- Automatically adjust parameters for short input sequences
- Expect threshold: 0.05
- Word size: 3
- Max matches in a query range: 0
- Matrix: BLOSUM62
- Gap Costs: Existence: 11 Extension: 1
- Compositional adjustments: Conditional compositional score matrix adjustment
- +Low complexity regions filter
Результат работы программы в виде текстового файла по
ссылке
Я выбрал несколько записей из верха списка и построил при помощи JalView множественное выравнивание данной мне последовательности и выбранных. Проект с выравниванием в виде файла по ссылке. Все выбранные белки гомологичны потому что в них много консервативных колонок и участков по несколько колонок, расположенных примерно равномерно по всей длине выравнивания.
Задание 2
Я выбрал аннотированный вирусный пролипротеин P1234:
- ID: POLN_EEVVC
- AC: Q8V294; Q5IBC3; Q8UYH5; Q8V295;
- "Организм": Venezuelan equine encephalitis virus (strain CPA201) (VEEV)
В нем из нескольких белков, которые он кодирует, выбрал RNA-directed RNA polymerase nsP4 (РНК-зависимая РНК-полимераза) с координатами 1891-2497.
Скачал и вырезал из последовательности всего полипротеина только выбранный зрелый белок при помощи команд:
- wget 'https://www.uniprot.org/uniprot/?query=organism%3Aveev+name%3Apolyprotein+mnemonic%3APOLN_EEVVC&sort=score&format=fasta' -O APOLN_EEVVC.fasta
- cat APOLN_EEVVC.fasta | seqret -filter fasta::stdin:[1891:2497] > nsP4.fasta
Далее с теми же самыми настройками программы BLAST я получил множество выравниваний (
файл с результатом работы) зрелого белка nsP4 с другими. Выбрал несколько и построил множественные выравнивания. Проект JalView. Все выбранные белки гомологичны, потому что на всей их длине встречаются наборы консервативных колонок, между которыми нет гэпов, хоть и встречаются вариативные участки.
Задание 3
Я ограничил круг организмов, по которым алгоритм BLAST может искать последовательности для выравнивания до группы Viruses. Далее в новом и старом списке результатов выравниваний я нашел строк с выравниванием
последовательности данного зрелого белка с одной и той же последовательностью (совпадающие AC).
По всему банку E-value был равен 0,013, только по вирусам - 0,0006. Разница в 22 раза.
Обратившись к формуле для расчёта E-value (рисунок 1), видим что различается только переменная n,
соответствующая длине банка. Значит, вирусные белковые последовательности суммарно в длину составляют
примерно 4,6% суммы длин всех последовательностей в банке.
Рисунок 1. Формула для расчёта E-value.