анализ гомологов белков
поиск гомологов белка dna-directed rna polymerase subunit beta
исходные данные
мой белок - dna-directed rna polymerase subunit beta, его ac: b1lnu0. далее перешла на сайт ncbi -> protein blast.
параметры blast
| параметр | значение |
|---|---|
| enter query sequence | b1lnu0 |
| database | standard databases (nr etc.): uniprotkb/swiss-prot(swissprot) |
| organism | - |
| algorithm | blastp (protein-protein blast) |
| max target sequences | 100 |
| expect threshold | 0.05 |
| matrix | blosum62 |
| gap costs | existence: 11 extension: 1 |
| compositional adjustments | conditional compositional score matrix adjustment |
| filter | - |
| mask | - |
результаты поиска и выравнивание
в выдаче было 100 последовательностей. из них я отобрала 5 находок с ac и с помощью jalview -> alignment -> mafft with defaults построила выравнивание.
- b1lnu0 (исходный белок)
- a9n0j5
- p41185
- q87kq5
- a8gyx0
- q3k5y2
анализ результатов
белки имеют много схожих и идентичных участков. наиболее длинные идентичные участки:
- отрезок 60-92
- отрезок 241-283
- отрезок 304-359
- отрезок 423-481
вывод: схожесть белков очень высока, значит они гомологичны.
гомологи зрелого вирусного белка, вырезанного из полипротеина
исходные данные
выбранный белок:
id: poln_eeev8
ac: q306w8
os: eastern equine encephalitis virus
в поле chain я выбрала белок protease nsp2, его координаты - 534-1327.
файл с вырезанной последовательностьюпараметры blast
| параметр | значение |
|---|---|
| enter query sequence | последовательность fasta вырезанного белка |
| database | standard databases (nr etc.): uniprotkb/swiss-prot(swissprot) |
| organism | - |
| algorithm | blastp (protein-protein blast) |
| max target sequences | 100 |
| expect threshold | 0.05 |
| matrix | blosum62 |
| gap costs | existence: 11 extension: 1 |
| compositional adjustments | conditional compositional score matrix adjustment |
| filter | - |
| mask | - |
результаты поиска и выравнивание
в выдаче было 30 последовательностей. в этот раз из них я выбрала следующие находки и построила выравнивание, вырезав участок, относящийся к зрелому белку:
- q306w8 (исходный белок)
- q84133
- p89659
- p18339
- q88920
- q66220
анализ результатов
белками, сильно выбивающимися из выравнивания стали tm1r_sollc и clh1_human: их последовательности в выравнивании имели очень мало совпадений. достоверные участки оставшихся последовательностей:
- 103-136
- 192-210
- 620-674
- 1345-1482
- 1489-1621
вывод: белки гомологичны.
анализ e-value
после этого в параметрах для запуска в пункте organism был введен параметр viruses(taxid:10239); остальные параметры остались такими же, что и в прошлом запросе. выдача программы увеличилась до 31 последовательности.
текстовая выдача результатов поискаe-value находок изменился. например, для находки q84133.2:
- до фильтрации: e-value = 3×10-13
- после фильтрации: e-value = 1×10-14
e-value вычисляется по формуле: e = kmn·e-λs
для определения доли вирусных белков в swiss-prot:
отношение e-value после фильтрации к e-value до фильтрации: 1×10-14 / 3×10-13 = 0,03 или 3%.