УЧЕБНЫЙ САЙТ
Буяновой Мишель
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ
И БИОИНФОРМАТИКИ МГУ им. М.В. ЛОМОНОСОВА
Семестр IV Семестр III Семестр II Cеместр I

Построение парных выравниваний. Поиск по сходству.

Итоговый проект: [JVP]
Стратегия поиска blast: [ASN]

Задание 1. Поиск в BLAST

В этом задании требовалось собрать выборку белков, гомологичных аминотрансферазе класса V из археи Archaeoglobus fulgidus (NP_069398.1). Поскольку в результате получалось слишком большое количество белков в выдаче, то я ограничила поиск таксонами Fungi и Methylobacterium. Столь далекие друг от друга (и от изучаемой археи) группы организмов были выбраны исходя из желания получить сравнительно небольшую выборку результатов, чтобы учесть не только самые лучшие находки.

Всего 324 находки. Из них 303 обладали query cover >80%, что можно понимать как гомологичность по всей длине.

Файл стратегии поиска: [ASN]

Проанализируем выдачу blast по трём находкам.

Параметр / НаходкаЛучшаяСредняяХудшая
Длина
выравнивания
39420945
Bit Score221 bits (563)59.3 bits (142)33.9 bits (76)
% идентичных остатков37%27%38%
% сходных остатков53%46%64%
E-value6e-678e-088.2
Выравнивание
из blast
pr11_best.fastapr11_normal.fastapr11_worst.fasta

Не стоит удивляться тому, что по проценту идентичных и сходных остатков средняя находка отстаёт от той, что была признана худшей. Здесь нужно не забывать учитывать длину выравнивания. Поэтому при таком, казалось бы, неплохом проценте сходства последнее выравнивание действительно худшее и имеет низкий Bit Score и высокий E-value.


Сколько из полученных находок можно считать гомологами целой исходной последовательности?

Чтобы разобраться c этим вопросом, используем следующий (конечно же, формальный и технический) критерий:

E-value < 1e-3
Query cover > 70%

Если следовать этому, то придём к ответу в 304 находки.

Задание 2. Множественное выравнивание выборки

Для этого задания из предположительно гомологичных находок я выбрала 23 и скачала их полные последовательности в формате fasta, после чего добавила в файл последовательность своего белка и построила выравнивание Muscle with defaults. Раскраска — по схеме BLOSUM62 с порогом по консервативности 30%.


Для просмотра всего выравнивания кликните на изображение.

Блоки отмечены символом 'B', критерии вертикального блока и абсолютной функциональной консервативности см. здесь.

Взглянув на выравнивание, можно заметить, что четыре первые последовательности (кроме самой первой, моего белка) схожи между собой и сильно отличаются от остальных девятнадцати. Особенно хорошо это просматривается на N- и С-концевых участках, которые содержат много гэповых позиций и вообще плохо выравнены друг относительно друга. Но несмотря на это после выравнивания ясно видно, что, судя по наличию хороших вертикальных блоков в середине, все без исключения последовательности гомологичны друг другу (на определённом участке). По крайней мере об этом можно говорить с большой долей вероятности.

Задание 3. Глобальное и локальное парные выравнивания

Наихудшей находкой в моей выборке была последовательность WP_042672106.1. Именно с ней я строила парные выравнивания четырёх различных типов:

  • глобальное, полученное из множественного путём удаления лишних последовательностей (Скачать [FASTA])

  • глобальное, полученное в программе needle (Скачать [FASTA])
    $ needle myprot.fasta badline.fasta -aformat fasta
    Needleman-Wunsch global alignment of two sequences
    Gap opening penalty [10.0]:
    Gap extension penalty [0.5]:
    Output alignment [np_069398.needle]: needle.fasta
  • локальное, полученное в программе water (Скачать [FASTA])
    $ water myprot.fasta badline.fasta -aformat fasta
    Smith-Waterman local alignment of sequences
    Gap opening penalty [10.0]:
    Gap extension penalty [0.5]:
    Output alignment [np_069398.water]: water.fasta
    
  • локальное, полученное в результате работы с blast (Скачать [FASTA])

Задание 4. Выравнивание различных выравниваний друг относительно друга

Для того, чтобы выровнять разные выравнивания, мне пришлось добавлять гэпы. В целом рассматриваемые локальные выравнивания очень схожи между собой, а те участки, которые были выравнены программами по-разному, показывают различие в их алгоритмах. Пример же участка с неодинаковым выравниванием можно видеть на рисунке ниже. Примечательно, что на показанном примере видно, что различаются как глобальные (2 верхних), так и локальные (2 нижних) выравнивания.

Задание 5. Парные выравнивания последовательностей негомологичных белков

В пару к своему белку я взяла случайный белок из таблицы: N-acetylmannosamine-6-phosphate 2-epimerase, Clostridium perfringens (WP_003452659.1) и провела все те же операции, что в Заданиях 3 и 4: построила выравнивания в needle и water и выровняла их в Jalview друг относительно друга.


Для просмотра всего выравнивания кликните на изображение.

Выровнять удалось достаточно хорошо, но на некоторых участках встретились очень мощные расхождения, что, вероятно, свидетельствует о ненадёжности данных, извлекаемых из "выравниваний" негомологичных структур.