Белок, который был использован в практикуме 7, назывался глюкозамин-1-фосфат N-ацетилтрансфераза (GlmU).
Параметры BLAST:
Текстовая выдача программы BLAST.
Для построения множественного выравнивания случайным образом были выбраны последовательности GlmU из следующих организмов:
Выравнивание было выполнено в Jalview с помощью Muscle with defaults, (Colour: Percentage Identity).
По результатам выравнивания можно увидеть, что белки гомологичны. Наиболее консервативные участки - 1-61, 76-109, 186-202, 222-244, 325-351, 355-411, 415-431.
Я выбрала полипротеин с ID - PP220_ASFB7.
Информация о полипротеине:
Отдельный фрагмент последовательности был вырезан средствами EMBOSS с помощью команды:
seqret 'sw:PP220_ASFB7[2:44]' PP220_ASFB7_segment.fasta
Для множественного выравнивания я взяла все находки, которые получились в результате работы программы.
После применения фильтра по организмам количество находок не изменилось, т.к. эта последовательность встречается только у вирусов. Однако изменился E-value: у двух находок с 3e-23 на 1e-24; у одной - с 6e-23 на 3e-24; ещё у двух - с 3e-08 на 1e-09.
Значение E-value по теореме Карлина:
(E-value = K × n × m × e^(-λ × S), где K - константа, зависящая от размера базы данных)
прямо пропорционально размеру базы данных, следовательно, можно найти долю вирусных белков в Swiss-Prot. Результат частного всех величин (3e-23/1e-24; 6e-23/3e-24; 3e-08/1e-09) при округлении до сотых равен 0,04, значит, записи о вирусных белках составляют примерно 4% всей базы данных Swiss-Prot.