Анализ гомологов белков

Поиск гомологов белка DNA-directed RNA polymerase subunit beta

Исходные данные

Мой белок - DNA-directed RNA polymerase subunit beta, его AC: B1LNU0. Далее перешла на сайт NCBI -> Protein Blast.

Параметры BLAST

Параметр Значение
Enter query sequence B1LNU0
Database Standard databases (nr etc.): UniProtKB/Swiss-Prot(swissprot)
Organism -
Algorithm blastp (protein-protein BLAST)
Max target sequences 100
Expect threshold 0.05
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter -
Mask -
Текстовая выдача результатов поиска

Результаты поиска и выравнивание

В выдаче было 100 последовательностей. Из них я отобрала 5 находок с AC и с помощью JalView -> Alignment -> Mafft with Defaults построила выравнивание.

  • B1LNU0 (исходный белок)
  • A9N0J5
  • P41185
  • Q87KQ5
  • A8GYX0
  • Q3K5Y2
Файл множественного выравнивания

Анализ результатов

Белки имеют много схожих и идентичных участков. Наиболее длинные идентичные участки:

  • Отрезок 60-92
  • Отрезок 241-283
  • Отрезок 304-359
  • Отрезок 423-481

Вывод: Схожесть белков очень высока, значит они гомологичны.

Гомологи зрелого вирусного белка, вырезанного из полипротеина

Исходные данные

Выбранный белок:

ID: POLN_EEEV8

AC: Q306W8

OS: Eastern equine encephalitis virus

В поле CHAIN я выбрала белок Protease nsP2, его координаты - 534-1327.

Файл с вырезанной последовательностью

Параметры BLAST

Параметр Значение
Enter query sequence Последовательность FASTA вырезанного белка
Database Standard databases (nr etc.): UniProtKB/Swiss-Prot(swissprot)
Organism -
Algorithm blastp (protein-protein BLAST)
Max target sequences 100
Expect threshold 0.05
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter -
Mask -
Текстовая выдача результатов поиска

Результаты поиска и выравнивание

В выдаче было 30 последовательностей. В этот раз из них я выбрала следующие находки и построила выравнивание, вырезав участок, относящийся к зрелому белку:

  • Q306W8 (исходный белок)
  • Q84133
  • P89659
  • P18339
  • Q88920
  • Q66220
Файл множественного выравнивания

Анализ результатов

Белками, сильно выбивающимися из выравнивания стали TM1R_SOLLC и CLH1_HUMAN: их последовательности в выравнивании имели очень мало совпадений. Достоверные участки оставшихся последовательностей:

  • 103-136
  • 192-210
  • 620-674
  • 1345-1482
  • 1489-1621

Вывод: Белки гомологичны.

Анализ E-value

После этого в параметрах для запуска в пункте Organism был введен параметр Viruses(taxid:10239); остальные параметры остались такими же, что и в прошлом запросе. Выдача программы увеличилась до 31 последовательности.

Текстовая выдача результатов поиска

E-value находок изменился. Например, для находки Q84133.2:

  • До фильтрации: E-value = 3×10-13
  • После фильтрации: E-value = 1×10-14

E-value вычисляется по формуле: E = Kmn·e-λS

Для определения доли вирусных белков в Swiss-prot:

Отношение E-value после фильтрации к E-value до фильтрации: 1×10-14 / 3×10-13 = 0,03 или 3%.