Практикум 10

1. Гомологи белка GlmU.

Белок, который был использован в практикуме 7, назывался глюкозамин-1-фосфат N-ацетилтрансфераза (GlmU).

Параметры BLAST:

-Database: Standard databases;
-Database: UniProtKB/Swiss-Prot(swissprot);
-Algorithm: blastp;
-Max target sequences: 100;
-(Short queries): Automatically adjust parameters for short input sequences - да;
-Expect threshold: 0,05;
-Word size: 5;
-Matrix: BLOSUM62;
-Gap Costs: Existence - 11, Extension - 1;
-Compositional adjustments: Conditional compositional score matrix adjustment.

Текстовая выдача программы BLAST.

Для построения множественного выравнивания случайным образом были выбраны последовательности GlmU из следующих организмов:

  1. Xanthomonas oryzae pv. oryzae MAFF 311018,
  2. Stenotrophomonas maltophilia R551-3,
  3. Azotobacter vinelandii DJ,
  4. Marinobacter nauticus VT8,
  5. Legionella pneumophila str. Lens,
  6. Xanthomonas fragariae OX=48664

Выравнивание было выполнено в Jalview с помощью Muscle with defaults, (Colour: Percentage Identity).

Ссылка на выравнивание.

По результатам выравнивания можно увидеть, что белки гомологичны. Наиболее консервативные участки - 1-61, 76-109, 186-202, 222-244, 325-351, 355-411, 415-431.

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина.

Я выбрала полипротеин с ID - PP220_ASFB7.

Информация о полипротеине:

Отдельный фрагмент последовательности был вырезан средствами EMBOSS с помощью команды:

seqret 'sw:PP220_ASFB7[2:44]' PP220_ASFB7_segment.fasta

Файл с последовательностью.

Далее с данной последовательностью в BLAST были проведены те же действия, что и в пункте 1:
Текстовая выдача программы BLAST.

Для множественного выравнивания я взяла все находки, которые получились в результате работы программы.

Ссылка на выравнивание.

Последовательности очень схожи, значит, они гомологичны.

3. Исследование зависимости E-value от объёма банка.

После применения фильтра по организмам количество находок не изменилось, т.к. эта последовательность встречается только у вирусов. Однако изменился E-value: у двух находок с 3e-23 на 1e-24; у одной - с 6e-23 на 3e-24; ещё у двух - с 3e-08 на 1e-09.

Значение E-value по теореме Карлина:

(E-value = K × n × m × e^(-λ × S), где K - константа, зависящая от размера базы данных)

прямо пропорционально размеру базы данных, следовательно, можно найти долю вирусных белков в Swiss-Prot. Результат частного всех величин (3e-23/1e-24; 6e-23/3e-24; 3e-08/1e-09) при округлении до сотых равен 0,04, значит, записи о вирусных белках составляют примерно 4% всей базы данных Swiss-Prot.