BLAST

Поиск гомологов белка Dihydroxyacetone kinase из бактерии Citrobacter freundii

При запуске BLAST были введены следующие параметры:

Вообще у белка довольно базовая функция (катализирует фосфорилирование дигидроксиацетона) и ожидалось большое количество результатов, но получили 24 последовательности. По всей видимости белок специфичен и в основном в организмах присутствуют его аналоги.

Текстовый файл с результатами поиска

Наиболее идентичным оказался белок из Solanum lycopersicum (томат). Затем идёт ряд млекопитающих, грибов и только потом с меньшим процентом идентичности белки из других бактерий. Были выбраны:

O04059 RecName: Full=Putative 3,4-dihydroxy-2-butanone kinase [Solanum lycopersicum]

Q3LXA3 RecName: Full=Triokinase/FMN cyclase [Homo sapiens]

Q4KLZ6 RecName: Full=Triokinase/FMN cyclase [Rattus norvegicus]

Q55EE0 RecName: Full=Probable dihydroxyacetone kinase [Dictyostelium discoideum]

A0R758 RecName: Full=L-erythrulose 1-kinase [Mycolicibacterium smegmatis MC2 155]

Проект выравнивания выбранных белков в Jalview

По выравниванию можно сказать, что белки являются гомологичными. Наибольшее количество точечных несовпадений наблюдается у Mycolicibacterium smegmatis MC2 155. В целом у белка из этого организма такой же принцип работы, просто он катализирует фосфорилирование не дигидроксиацетона, а L-эритрулозы. В его пространственной конформации тоже можно заметить отличие. 2 домена более приближены друг к другу.

Ещё примечателен белок Probable dihydroxyacetone kinase из Dictyostelium discoideum. Его конфигурация схожа с нашим белком, но на выравнивании у него можно заметить вставки, которые в структуре его выступают петлями в одном из доменов.

У остальных белков ничего интересного по сравнению со структурой исходного белка нет. Если говорить про функции, то можно выделить ещё белок из томата.

Гомологи Polyprotein P1234 из Aura virus (AURAV)

ID: POLN_AURAV

AC: Q86924

В полипротеин входит 8 разных белков. Выберем RNA-directed RNA polymerase nsP4 (1890-2499). Вырежем его последовательность в отдельный файл с помощью команды:

seqret 'sw:poln_aurav[1890:2499]' segment.fasta

Для выравнивания были выбраны:

Q86924 RecName: Full=Polyprotein P1234 [Aura virus]

P03317 RecName: Full=Polyprotein P1234 [Sindbis virus]

P27283 RecName: Full=Polyprotein P1234 [Ockelbo virus]

P08411 RecName: Full=Polyprotein P1234 [Semliki Forest virus]

P87515 RecName: Full=Polyprotein P1234 [Barmah Forest virus]

P13896 RecName: Full=Polyprotein P1234 [Western equine encephalitis virus]

Проект выравнивания выбранных белков в Jalview

В целом белки гомологичны, но у них можно выделить более вариабельный участок в начале последовательности и консервативный, начиная где-то с 269 и до конца.

Исследование зависимости E-value от объёма банка

RNA-directed RNA polymerase 2a из Cowpea chlorotic mottle virus (P20179) при первом поиске выдало E-value = 7e-07. При указании организмов значение составило 3е-08.

Где S-вес выравнивания, m-длина исходной последовательности, n-размер базы данных, K и λ - константы

Из всех этих переменных мы изменили размер базы данных. Найдём долю вирусных организмов: 3е-08/7e-07 = 0,0429 или 4,3%