BLAST

Практикум 10

1. Гомологи белка GlmU.

Белок, который был использован в практикуме 7, назывался глюкозамин-1-фосфат N-ацетилтрансфераза (GlmU).

Параметры BLAST:

-Database: Standard databases;

-Database: UniProtKB/Swiss-Prot(swissprot);

-Algorithm: blastp;

-Max target sequences: 100;

-(Short queries): Automatically adjust parameters for short input sequences - да;

-Expect threshold: 0,05;

-Word size: 5;

-Matrix: BLOSUM62;

-Gap Costs: Existence - 11, Extension - 1;

-Compositional adjustments: Conditional compositional score matrix adjustment.

Текстовая выдача программы BLAST.

Для построения множественного выравнивания случайным образом были выбраны последовательности GlmU из следующих организмов:

Xanthomonas oryzae pv. oryzae MAFF 311018,
Stenotrophomonas maltophilia R551-3,
Azotobacter vinelandii DJ,
Marinobacter nauticus VT8,
Legionella pneumophila str. Lens,
Xanthomonas fragariae OX=48664

Выравнивание было выполнено в Jalview с помощью Muscle with defaults, (Colour: Percentage Identity).

Ссылка на выравнивание.

По результатам выравнивания можно увидеть, что белки гомологичны. Наиболее консервативные участки - 1-61, 76-109, 186-202, 222-244, 325-351, 355-411, 415-431.

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина.

Я выбрала полипротеин с ID - PP220_ASFB7.

Информация о полипротеине:

ID: PP220_ASFB7
AC: Q08358
Name (OS): African swine fever virus (strain Badajoz 1971 Vero-adapted) (Ba71V)
Chain: p5
Coordinates: 2..44

Отдельный фрагмент последовательности был вырезан средствами EMBOSS с помощью команды:

seqret 'sw:PP220_ASFB7[2:44]' PP220_ASFB7_segment.fasta

Файл с последовательностью.

Далее с данной последовательностью в BLAST были проведены те же действия, что и в пункте 1:

Текстовая выдача программы BLAST.

Для множественного выравнивания я взяла все находки, которые получились в результате работы программы.

Ссылка на выравнивание.

Последовательности очень схожи, значит, они гомологичны.

3. Исследование зависимости E-value от объёма банка.

После применения фильтра по организмам количество находок не изменилось, т.к. эта последовательность встречается только у вирусов. Однако изменился E-value: у двух находок с 3e-23 на 1e-24; у одной - с 6e-23 на 3e-24; ещё у двух - с 3e-08 на 1e-09.

Значение E-value по теореме Карлина:

(E-value = K × n × m × e^(-λ × S), где K - константа, зависящая от размера базы данных)

прямо пропорционально размеру базы данных, следовательно, можно найти долю вирусных белков в Swiss-Prot. Результат частного всех величин (3e-23/1e-24; 6e-23/3e-24; 3e-08/1e-09) при округлении до сотых равен 0,04, значит, записи о вирусных белках составляют примерно 4% всей базы данных Swiss-Prot.