Работа с Protein BLAST

Поиск гомологов вероятного двухфункционального тРНК-треонилкарбамоиладенозин-синтезирующего белка Halorarum salinum

Для поиска гомологов белка в соответствующее окно программы Protein BLAST была введена последовательность этого белка. В качестве базы данных, в которой проводился поиск, был выбран Swiss-Prot. Из поиска была исключена H. salinum, т.к. меня интересовало нахождение гомологичных белков у других организмов. В окне дополнительных параметров значение максимального размера выдачи было изменено на '1000'. Остальные параметры остались без изменений (по умолчанию). Результат - выдано 605 последовательностей. Отсортированы по возрастанию E-value.

Текстовая выдача Protein BLAST

Из выведенных последовательностей были выбраны 7 с наименьшими значениями E-value (наиболее значимые). Все они имеют одинаковое рекомендованное название (Probable bifunctional tRNA threonylcarbamoyladenosine biosynthesis protein) и принадлежат археям: Natronomonas pharaonis, Haloquadratum walsbyi, Haloarcula marismortui, Halobacterium salinarum, Methanosarcina mazei, Methanosarcina acetivorans, Methanospirillum hungatei JF-1. Эти последовательности были записаны в отдельный файл. С ними было проведено множественное выравнивание с использованием программы muscle. Полученное выравнивание было импортировано в Jalview.

Скачать проект Jalview

Выравнивание показало, что все выбранные белки гомологичны: все восемь последовательностей содержат множество высококонсервативных участков, то есть таких участков, которые почти не изменяются у белков рассмотренных организмов (наиболее продолжительные из них: 8-15; 50-58; 100-108; 193-198; 448-452; 522-527). Таким образом, можно сделать вывод, что вероятный двухфункциональных тРНК-треонилкарбамоиладенозин-синтезирующий белок гомологичен у разных близкородственных архей.

Гомологи белка из полипротеина

Для проведения исследования был выбран gag polyprotein, принадлежащий Спумаретровирусу человека (Human spumaretrovirus (SFVcpz(hu))).

ID: GAG_FOAMV

AC: P14349

Название вируса: Human spumaretrovirus (SFVcpz(hu)) (Human foamy virus)

Из двух цепей, на которые разрезается белок, была выбрана цепь, соответствующая gag-белку (gag protein, координаты в полипротеине: 1-621). Последовательность этого белка средствами EMBOSS была перенесена в fasta-файл. С помощью Protein BLAST проведён поиск гомологов этого белка (текстовая выдача программы). При этом никакие организмы из поиска не исключались, поиск велся по базе данных Swiss-Prot, максимальноее число находок - 100, длина слова для поиска - 2, значения остальных параметров оставлены по умолчанию. С помощью программы muscle было проведено множественное выравнивание всех пяти найденных последовательностей, которое затем было импортировано в Jalview.

Проект Jalview

Скорее всего, все найденные последовательности являются гомологичными. Об этом свидетельствует большое количество участков высокой консервативности (у всех последовательностей идентичны участки 58-60; 312-315; 327-329; 344-347; 437-441; 474-477; 564-566; 574-579; 638-640). Но стоит отметить, что последовательность Gag белка, принадлежащего Feline foamy virus, отличается от остальных сильнее. Таким образом, можно сделать вывод, что этот белок родственен остальным в наименьшей степени (но всё же его гомологичность отрицать нельзя, т.к. у него есть довольно продолжительные участки, идентичные другим белкам).

Исследование зависимости E-value от объёма банка

Для проведения этого исследования был совершён поиск в Protein BLAST, аналогичный предыдущему, но ограниченный таксоном Вирусы. Результаты этого поиска не отличались от предыдущего (текстовая выдача Protein BLAST) - те же пять последовательностей. Однако значение E-value для трех последних находок изменились. Значения E-value для найденной последовательности белка GAG_FFV (AC: O56860) в двух поисках было решено использовать для оценки доли вирусных белков в Swiss-Prot.

E-value = m·n·2–B, где m - длина исходной последовательности, n - размер базы данных, B - вес в битах (total weight). Тогда:

nобщ = E-valueобщ/(m·2–Bобщ), nвир = E-valueвир/(m·2–Bвир). Тогда:

nвир/nобщ = (E-valueвир/(m·2–Bвир))/(E-valueобщ/(m·2–Bобщ)) = (E-valueвир·2–Bобщ)/(E-valueобщ·2–Bвир) =

= (10–54·2–271)/(3·10–53·2–271) = 0.0333

Таким образом, можно сделать вывод, что последовательности вирусных белков составляют примерно 3.33% от всех последовательностей в Swiss-Prot.