Практикум 13. Программа BLAST

1. Гомологи терпен-синтазы Streptomyces pristinaespiralis

Произвела поиск по базе данных NR с помощью алгоритма BLAST со следующими параметрами:

Program	blastp
Word size	6
Expect value	0.05
Hitlist size	100
Gapcosts	11,1
Matrix	BLOSUM62
Filter string	F
Genetic Code	1
Window Size	40
Threshold	21
Composition-based stats	2

Было выведено 100 находок

Из них для анализа я выбрала 5.

WP_182856951.1 terpene synthase [Streptomyces durbertensis]

WP_052432700.1 terpene synthase [Streptacidiphilus carbonis]

WP_189468393.1 terpene synthase [Streptomyces kurssanovii]

KPI15473.1 Terpene synthase metal-binding domain-containing protein [Actinobacteria bacterium OV450]

Перед выравниванием я скачала последовательности в fasta-формате и объединила их при помощи команды

cat *.fasta > all.fasta.

Далее произвела множественное выравнивание командой

muscle -in all.fasta -out align.fasta.

Полученное выравнивание открыла в программе JalView, установила окраску по проценту схожести. Проект доступен по ссылке.

Все выравненные белки гомологичны, поскольку имеют большой процент схожести.

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина

Выбор пал на Gag-Pol полипротеин вируса иммунодефицита человека 1 (ID: POL_HV1H2, AC: P04585, Human immunodeficiency virus type 1 group M subtype B (isolate HXB2) (HIV-1).

Из него я вырезала последовательность протеазы с координатами 489..587 командой

seqret 'sw:POL_HV1H2[489:587]' protease_HIV.fasta.

Далее поиск по базе swissprot произвела по описанному выше алгоритму с аналогичными параметрами. Ниже представлен скриншот результатов работы.

Из выдачи выбрала следующие последовательности: Q9QBZ5.3, P03369.3, P05959.3, P15833.3, P18096.4 .

Далее произвела множественное выравнивание при помощи команды muscle из пакета EMBOSS

Полученное выравнивание открыла в JalView. Проект доступен по ссылке. Удалила буквы из последовательностей полипротеинов уже в JalView

3. Исследование зависимости E-value от объёма банка

Сперва я произвела поиск BLAST NCBI аналогично предыдущему (но по базе NR), потом ограничив круг поиска вирусными последовательностями. Ниже прикрепляю скриншот выдачи.

В обоих случаях в базе данных очень много гомологичных белков. E-value при сужении поиска уменьшается, поскольку при ограничении базы данных ожидаемое количество выравниваний с весом больше или равным весу выравнивания снижается.

Для анализа выбрала 7 последовательностей.

Описание последовательности	E-Value	E-Value	Accession	Доля вирусных последовательностей
retropepsin [Human immunodeficiency virus 1]	8E-66	4E-64	NP_705926.1	0,02
HIV-1 protease in complex with fluoro substituted diol-based C...	1E-65	5E-64	1W5V_A	0,02
HIV-1 PROTEASE (I84V) COMPLEXED WITH XV638 OF DUPONT...	1E-65	6E-64	1BV9_A	0,0167
HIV-1 protease [Human immunodeficiency virus]	1E-65	7E-64	CAA09316.1	0,0143
Hiv-1 Protease In Complex With The Cyclic Sulfamide Inhibitor...	1E-65	7E-64	1AJV_A	0,0143
Wild type HIV protease bound with GW0385 [Human immunodeficien...	1E-65	7E-64	2FDE_A	0,0143
pol protein [Human immunodeficiency virus 1]	2E-65	1E-63	AFH76815.1	0,02

Чтобы оценить долю вирусных белков в Swissprot воспользовалась теоремой Карлина:

, где m - длина последовательности, n - размер базы данных, B - вес выравнивания запроса в битах.

Для нахождения доли вирусных последовательностей поделим e-value из первого поиска на второе, поскольку длины последовательностей и вес совпадают. Вирусные белки составляют 1,5-2% от всех последовательностей.