pano

Basic Local Alignment Search Tool

Гомологи глицин-оксидазы Geobacillus kaustophilus

При формировании запроса в BLAST по базе SwissProt я использовал код белка глицин-оксидазы бактерии Geobacillus kaustophilus из GenBank: BAD74908.1. Значения параметров я оставил по умолчанию, кроме некоторых. Выдачу я ограничил 10 результатами, expect threshold я повысил до 10, размер слов уменьшил до 3 букв и установил фильтр участков малой сложности. Я выбрал 6 белков из выдачи к запросу, добавил к ним глицин-оксидазу Geobacillus kaustophilus и построил множественное выравнивание с помощью программы muscle. Экспортировав выравнивание в формате fasta, я затем открыл его в Jalview и покрасил по проценту идентичности.

В целом, белки на выравнивании схожи, что подтверждается высоким весом и процентом сходства, и скорее всего гомологичны (идентификаторы белков можно посмотреть в проекте Jalview). Низкие значения E-value говорят, что находки гомологов достоверны. Все эти белки катализируют окислительно-восстановительные реакции с глицином у бактерий, что можно тоже считать одним из аргументов, подтвреждающих гомологию. Среди 7 белков в выравнивании есть два, которые заметно длиннее остальных и выровнены с ними с хорошей степенью сходства, но далеко не 100%-ым покрытием. Как следует из их описания в UniProt, это белки цианобактерий, несущие домены, сходные с глицин-оксидазой и с тиазол-синтазой. Это может быть связано с тем, что дегидроглицин участвует затем в образовании кольца тиазола, поэтому эти два процесса могут быть пространственно совмещены. Небольшие участки глицин-оксидаз, выровненные на длинные участки, гомологичные, видимо, тиазол-синтазе, по моему мнению являются небольшой ошибкой выравнивания, так как их наличие в таком виде трудно объяснить эволюционно.

Гомологи вирусного белка

Я выбрал полипротеин gag одного из мышиных вирусов лейкоза: Friend murine leukemia virus (isolate 57), AC="P26807", RecName: Full=Gag polyprotein, ID="GAG_MLVF5". Этот полипротеин содержит ключевые белки и характерен для большинства представителей отряда Ortervirales, представителями которого являются ретровирусы (Coffin et al., 1997). В нём я выбрал белок капсида p30 (Capsid protein p30, id="PRO_0000040898"), располагающийся на участке 217-479 остаток на полипротеине, и извлёк его с помощью программы descseq:

descseq sw:GAG_MLVF5[217:479] nucl_caps.fasta -name "Capsid protein p30, id=PRO_0000040898; from Gag polyprotein, AC=" -description ", id=GAG_MLVF5"

Ссылка на fasta-файл с белком

После этого я сделал запрос в BLAST по базе SwissProt с параметрами по умолчанию, кроме: expect threshold 10, длина слова 2, включён фильтр участков малой сложности. Среди результатов с E-value меньше 1 были только gag-полипротеины из других вирусов. Я выбрал 6 из них (идентификаторы выбранных полипротеинов можно посмотреть в проекте Jalview), добавил изолированную последовательность белка капсида и построил множественное выравнивание с помощью muscle. В Jalview я убрал из выравнивания участки, невыровненные с последовательностью белка капсида. Белки демонстрируют очень высокое сходство, многие продолжительные участки консервативны и идентичны у всех последовательностей (например 47-59, 153-162, 217-228). Видимо, эти белки гомологичны.

Доля вирусных белков

Я сделал второй запрос с теми же параметрами, что и в предыдущем разделе, но теперь ограничил базу данных только вирусами. Выдача не изменилась, как и в прошлый раз результаты принадлежат вирусам. Я взял первый результат из двух запросов – между ними изменилось только значение E-value. Из формулы теоремы Карлина мы получаем, что отношение этих двух значений E-value (viruses) / E-value (all) сводится, так как остальные переменные не изменились, к отношению общей длины последовтаельностей в базе только с вирусами к длине последовтельностей всей базы. Для первой результата это отношение равно 0,033 (вирусные последовательности составляют примерно 3,3% от длины всех последовательностей базы). Среднее значение этого отношения для пар E-value из первых пяти результатов равно 0,037 (то есть вирусные последовательности составляют примерно 3,7% от длины всех последовательностей базы).

Список литературы

  1. Coffin JM, Hughes SH, Varmus HE, editors (1997) Retroviruses // Cold Spring Harbor (NY): Cold Spring Harbor Laboratory Press, chapter "Genetic Organization".