Алгоритм BLAST был запущен с настройками:
Database: Non-redundant UniProtKB/SwissProt sequences
Organism: bacteria (taxid:2)
Exclude Uncultured/environmental sample sequences
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 1000
Значения остальных параметров были оставлены как по умолчанию.
Скачать результат применения алгоритма blastp (формат .txt)
Из списка результатов для дальнейшего анализа были выбраны:
Q57366.1, DSTOR_CERSP, Cereibacter sphaeroides
P46923.2, TORZ_ECOLI, Escherichia coli K-12
P44798.1, TORZ_HAEIN, Haemophilus influenzae Rd KW20
Q52675.2, DSTOR_RHOCA, Rhodobacter capsulatus
Q8Z2M4.1, TORA_SALTI, Salmonella enterica subsp. enterica serovar Typhi
Q8EHI9.1, TORA_SHEON, Shewanella oneidensis MR-1
Q8D8S3.2, TORA_VIBVU, Vibrio vulnificus CMCP6
Определяя последовательности для выравнивания, я выбирал белки с одинаковой функцией, значением Е-value 0 и старался максимально увеличить видовое разнообразие.
Скачать файл множественного выравнивания (проект Jalview)
В целом, в выравнивании довольно часто встречаются протяжённые области сходства. Учитывая малую вероятность конвергенции, можно сделать вывод о гомологии всех представленных белков.
Для работы бвл взят полипротеин:
Вирус ящура (Foot-and-mouth disease virus, FMDV), изолят Bovine/Germany/O1Kaufbeuren/1966 серотип O
ID: POLG_FMDVO
AC: P03305
Из множества белков полипротеина выбран белок капсида VP3:
/note="Capsid protein VP3">
/evidence="ECO:0000255"
/id="PRO_0000039878"
Необходимый участок был вырезан из полипротеина командой из пакета EMBOSS:
seqret 'sw:polg_fmdvo[505:724]' vp3capsid.fasta
Ссылка на fasta-файл с последовательностью VP3 FMDV
Алгоритм blastp применён с прежними настройками, но без фильтров “Organism” и “Exclude”.
Скачать результат применения алгоритма blastp (формат .txt)
Из списка результатов для дальнейшего анализа были выбраны:
P06209.3, POLG_POL32, Poliovirus type 3 (штамм 23127)
P29813.4, POLG_EC11G, Echovirus 11 (штамм Gregory)
P13900.3, POLG_SVDVU, Swine vesicular disease virus (штамм UKG/27/72)
Q9QL88.4, POLG_CXB6S, Coxsackievirus B6 (штамм Schmitt)
B8XTP8.1, POLG_COSAA, Cosavirus A изолят Human/Pakistan/0553/-
P17594.2, POLG_EMCVD, Encephalomyocarditis virus штамм emc-d diabetogenic
C0MHL9.1, POLG_SAFV, Saffold virus
При выборе я ориентировался прежде всего на максимальное видовое разнообразие.
Для каждого из этих полипротеинов командой seqret был выделен участок, кодирующий VP3. Эти участки и анализировались далее.
Множественное выравнивание алгоритмом MUSCL проведено аналогично с бактериальными белками.
Скачать файл множественного выравнивания (проект Jalview)
Можно заметить участок сходства с координатами 114-178. В выравнивании он самый крупный. Мне кажется, его наличие свидетельствует о гомологии всех этих белков. Различия в других сайтах можно объяснить тем, что сравниваемые белки капсидные, а значит могут участвовать в специфическом прикреплении к клетке хозяина. Именно такие белки обладают одной из наибольших вариабельностей среди разных вирусов, так как у каждого вируса свой круг хозяев и поражаемых клеток.
Алгоритм blastp снова применён к белку VP3 FMDV. На этот раз настройки совпадали с таковыми из второго задания, за исключением фильтра:
Organism: viruses (taxid:10239)
Скачать результат применения алгоритма blastp (формат .txt)
Проведено сравнение результатов BLAST в этом и в предыдущем задании. Кажется, список находок совсем не изменился. Значение E-value различается уже у самой первой последовательности, показанной среди результатов. Для анализа возьмём вторую последовательность: P03308.2. Значения E-value:
Без применения фильтра “Organism”: 6*10-125
С его применением: 2*10-126
Отношение 30/1
В Swissprot доля вирусных белков 1/30, или примерно 0,033.