BLAST

Задание 1

На вход в blastp я дала UniProt AC (P81445) нитритредуктазы Achromobacter xylosoxidans. Поиск производмлся по базе данных SwissProt и среди всех организмов, исключая вид (taxid: 85698), которому принадлежит данный белок. Дополнительные параметры я оставила по умолчанию:

Результатом работы программы стал список из 20 находок, первые 10 (E-value 1e-39 и ниже) из которых представляют собой нитритредуктазы альфа- и бета-протеобактерий, а оставшиеся (лучшая находка из этой группы имеет E-value 1e-07, что на 32 порядка больше этого показателя для худшей из первой группы) — какие-то оксидазы растений и грибов, имеющие при том гораздо большую длину. Для множественного выравнивания, кроме моего белка, я взяла пять бактериальных белков с разным E-value, а также лакказу Arabidopsis thaliana и ферроксидазу спорыньевого гриба Epichloe festucae. Выравнивание было произведено с помощью программы muscle из пакета emboss с настройками по умолчанию и визуализировано в Jalview (проект). Я удалила из выравнивания белки эукариот, потому что не нашла в них участков, в которых можно было бы проследить хотя бы гомологию c остальными последовательностями. Возможно, найденное BLASTом сходство бактериальных и эукариотических последовательностей объясняется подобным механизмом реакций ферментов, а не общностью их происхождения. Исходя из выравнивания шести нитритредуктаз, я делаю вывод, что они гомологичны по всей длине.

Задание 2

Я выбрала геномный полипротеин полиовируса типа 1 (ID: POLG_POL1M, AC: P03300) и вырезала из него последовательность РНК-зависимой РНК-полимеразы ("RNA-directed RNA polymerase", координаты 1749–2209 в полипротеине). Для поиска гомологичных последовательностей я использовала BLAST с теми же параметрами, что и в предыдущем задании, изменив только максимальное число находок на 1000. Я получила 101 находку вирусов животных и растений, насколько я проверила, всех принадлежих к семейству Picornaviridae. Можно заметить, что, по сравнению с белком бактерии из предыдущего задания, для вирусного белка нашлось больше потенциальных гомологов с более равномерным распределением значений веса выравнивания, что говорит о его изменчивости. Я выбрала семь белков с разными значениями E-value, произвела множественное выравнивание алгоритмом muscle на сайте EMBL (программа из emboss выровняла плохо), визуализировала его с помощью Jalview (проект) и удалила в нем позиции, не относящиеся к последовательности искомого белка. Также я удалила из выравнивания находку (AC: Q89273), для которой я не увидела гомологию с остальными. Эта находка имеет E-value 1e-11 и, судя по всему, содержит последовательность РНК-зависимой РНК-полимеразы, гомологичную таковой у полиовируса, однако в множественном выравнивании этот полипротеин выровнялся не по тем координатам (1300–1657 в BLASTе, 1822–2341 в muscle). Оставшиеся шесть последовательностей гомологичны белку полиовируса, несмотря на протяженные инсерции (или делеции в остальных) в РНК-зависимой РНК-полимеразе Rice tungro spherical virus.

Задание 3

Аналогичный поиск с ограничением на вирусные белки дал 103 находки. Я выбрала одну с AC Q82122 в UniProt. При поиске по всей базе данных SwissProt она выровнялась с последовательностью из запроса с E-value 3e-178, а при поиске только среди вирусов — с E-value 1e-179. Согласно известной формуле, при постоянных значениях длине исходной последовательной и веса выравнивания, E-value пропорционален размеру базы данных. Разделив второе значение на первое, мы получаем, что суммарная длина вирусных белков составляет примерно 3.33% суммарной длины всех белков в SwissProt.