Выравнивание последовательностей

Первое задание

Мой белок- RecA, я искал похоже белки с помощью BLAST используя следующие параметры: Датабазы- стандартные датабазы; Датабаза- UniProtKB/Swiss-Prot(swissprot); Алгоритм- blastp; Максимум белков- 5000; Ожидаемый порог (Expect threshold)- 0.05; Размер слова- 5; Матрица- BLOSUM62; Гэпы- открытие: 11, продолжение: 1; Compositional adjustments- Conditional compositional score matrix adjustment.

По данному запросу было найдено 517 белков. Полную текстовую выдачу программы вы можете найти по ссылке.

Для создания множественного выравнивания я выбрал 6 следующих белков: Recombinase A [Rhizobium etli CFN 42], Recombinase A [Psychrobacter sp. PRwf-1], [Magnetospirillum magneticum AMB-1], Recombinase A [Burkholderia cenocepacia J2315], Recombinase A [Clostridium perfringens str. 13], Recombinase A [Shewanella loihica PV-4]. Я их выравнял в Jalview с помощью Muscle with defaults и покрасил по Percentage Identity. Результаты выравнивания вы можете скачать по ссылке. По моему мнению все выбранные белки гомологичны, так как у нихбольшой процент совпадения и явно выделяются строго консерваитивные домены. Сильно отличается только С-конец белка, что скорее всего связанно с тем, что он не выполняет никакой роли.

Второе задание

Для этого задания я выбрал Gag polyprotein из Simian retrovirus SRV-2. Его AC- P51516, ID- GAG_SRV2, OS- Gag polyprotein. В качестве зрелого белка я выбрал Nucleocapsid protein p14 с координатами 524-618. Я вырезал его последовательность с помощью EMBOSS следующей командой:

seqret 'sw:GAG_SRV2[524:618]' gag_srv2_segment.fasta

Файл с последовательностью вы можете найти по ссылке.

С данной последовательностью я проделал те же действия, что и в задании один (все настройки аналогичны). По запросу в BLAST было найдено 87 белков. Полную текстовую выдачу программы вы можете найти по ссылке.

Для создания множественного выравнивания я выбрал 5 белков со следующими AC: P51516.3 (из Simian retrovirus 2), P04022.3 (из Simian retrovirus 1), P07570.2 (из Mason-Pfizer monkey virus), P63128.3 (из Homo sapiens), P21411.3 (из Squirrel monkey retrovirus). Я их выравнял в Jalview с помощью Muscle with defaults и покрасил по Percentage Identity. Результаты выравнивания вы можете скачать по ссылке. По моему мнению, первые три белка точно гомологичны друг другу, а вторые два скорее всего отдаленно гомологичны им. Я сделал такой вывод, потому что первые три белка имеют очень схожую последовательность аминокислот, но у вторых двух первая половина последовательностей значительно отличается. Вывод о том, что они гомологичны первым трем белкам я сделал исходя из второй половины последовательности, которая между ними очень схожа. Различие в первой половине скорее всего объясняется тем, что белок приобрел новые функции. Кроме того, это может объясняться делецией первой половины белка, а то, что выравнялось на первую половину, является фрагментом другого белка, образующегося из полипротеина.

Третье задание

Список находок изменился, вместо 87 белков нашлось 144. E-value для последовательностей, которые были в обоих запросах тоже изменился. В случае поиска среди вирусов, E-value для каждой последовательности был меньше примерно в 25 раз. Это объясняется тем, что E-value прямо пропорционален размеру базы, в которой ведется поиск. Логично, что база вирусов меньше, чем база всех последовательностей. Исходя из того, что E-value для всех стало меньше в 25 раз, можно сделать вывод, что размер базы вирусов примерно в 25 раз меньше базы всех последовательностей. Другими словами, доля вирусных белков в Swissprot примерно 4%. Уменьшение E-value также объясняет, что находится больше белков- так как E-value уменьшается, находится больше белков, у которых E-value меньше 0.05.