Учебная страница Маши Смирновой

Анализ гомологов белков

Поиск гомологов белка DNA-directed RNA polymerase subunit beta

Исходные данные

Мой белок - DNA-directed RNA polymerase subunit beta, его AC: B1LNU0. Далее перешла на сайт NCBI -> Protein Blast.

Параметры BLAST

Параметр Значение
Enter query sequence B1LNU0
Database Standard databases (nr etc.): UniProtKB/Swiss-Prot(swissprot)
Organism -
Algorithm blastp (protein-protein BLAST)
Max target sequences 100
Expect threshold 0.05
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter -
Mask -

Результаты поиска и выравнивание

В выдаче было 100 последовательностей. Из них я отобрала 5 находок с AC и с помощью JalView -> Alignment -> Mafft with Defaults построила выравнивание.

Анализ результатов

Белки имеют много схожих и идентичных участков. Наиболее длинные идентичные участки:

Вывод: Схожесть белков очень высока, значит они гомологичны.

Гомологи зрелого вирусного белка, вырезанного из полипротеина

Исходные данные

Выбранный белок:

ID: POLN_EEEV8

AC: Q306W8

OS: Eastern equine encephalitis virus

В поле CHAIN я выбрала белок Protease nsP2, его координаты - 534-1327.

Параметры BLAST

Параметр Значение
Enter query sequence Последовательность FASTA вырезанного белка
Database Standard databases (nr etc.): UniProtKB/Swiss-Prot(swissprot)
Organism -
Algorithm blastp (protein-protein BLAST)
Max target sequences 100
Expect threshold 0.05
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter -
Mask -

Результаты поиска и выравнивание

В выдаче было 30 последовательностей. В этот раз из них я выбрала следующие находки и построила выравнивание, вырезав участок, относящийся к зрелому белку:

Анализ результатов

Белками, сильно выбивающимися из выравнивания стали TM1R_SOLLC и CLH1_HUMAN: их последовательности в выравнивании имели очень мало совпадений. Достоверные участки оставшихся последовательностей:

Вывод: Белки гомологичны.

Анализ E-value

После этого в параметрах для запуска в пункте Organism был введен параметр Viruses(taxid:10239); остальные параметры остались такими же, что и в прошлом запросе. Выдача программы увеличилась до 31 последовательности.

E-value находок изменился. Например, для находки Q84133.2:

E-value вычисляется по формуле: E = Kmn·e-λS

Для определения доли вирусных белков в Swiss-prot:

Отношение E-value после фильтрации к E-value до фильтрации: 1×10-14 / 3×10-13 = 0,03 или 3%.