учебная страничка маши смирновой

анализ гомологов белков

поиск гомологов белка dna-directed rna polymerase subunit beta

исходные данные

мой белок - dna-directed rna polymerase subunit beta, его ac: b1lnu0. далее перешла на сайт ncbi -> protein blast.

параметры blast

параметр значение
enter query sequence b1lnu0
database standard databases (nr etc.): uniprotkb/swiss-prot(swissprot)
organism -
algorithm blastp (protein-protein blast)
max target sequences 100
expect threshold 0.05
matrix blosum62
gap costs existence: 11 extension: 1
compositional adjustments conditional compositional score matrix adjustment
filter -
mask -
текстовая выдача результатов поиска

результаты поиска и выравнивание

в выдаче было 100 последовательностей. из них я отобрала 5 находок с ac и с помощью jalview -> alignment -> mafft with defaults построила выравнивание.

файл множественного выравнивания

анализ результатов

белки имеют много схожих и идентичных участков. наиболее длинные идентичные участки:

вывод: схожесть белков очень высока, значит они гомологичны.

гомологи зрелого вирусного белка, вырезанного из полипротеина

исходные данные

выбранный белок:

id: poln_eeev8

ac: q306w8

os: eastern equine encephalitis virus

в поле chain я выбрала белок protease nsp2, его координаты - 534-1327.

файл с вырезанной последовательностью

параметры blast

параметр значение
enter query sequence последовательность fasta вырезанного белка
database standard databases (nr etc.): uniprotkb/swiss-prot(swissprot)
organism -
algorithm blastp (protein-protein blast)
max target sequences 100
expect threshold 0.05
matrix blosum62
gap costs existence: 11 extension: 1
compositional adjustments conditional compositional score matrix adjustment
filter -
mask -
текстовая выдача результатов поиска

результаты поиска и выравнивание

в выдаче было 30 последовательностей. в этот раз из них я выбрала следующие находки и построила выравнивание, вырезав участок, относящийся к зрелому белку:

файл множественного выравнивания

анализ результатов

белками, сильно выбивающимися из выравнивания стали tm1r_sollc и clh1_human: их последовательности в выравнивании имели очень мало совпадений. достоверные участки оставшихся последовательностей:

вывод: белки гомологичны.

анализ e-value

после этого в параметрах для запуска в пункте organism был введен параметр viruses(taxid:10239); остальные параметры остались такими же, что и в прошлом запросе. выдача программы увеличилась до 31 последовательности.

текстовая выдача результатов поиска

e-value находок изменился. например, для находки q84133.2:

e-value вычисляется по формуле: e = kmn·e-λs

для определения доли вирусных белков в swiss-prot:

отношение e-value после фильтрации к e-value до фильтрации: 1×10-14 / 3×10-13 = 0,03 или 3%.