Множественное выравнивание последовательностей

1.Выравнивание набора гомологов белка HutP_Bacsu.

a. Используя BLAST на NCBI, ищу гомологов моего белка.

Запускаю BLAST по Swiss-Prot, ограничив выдачу таксоном Bacteria и поставив порог на E-value, равный 0.001.

Найдено всего лишь 11 гомологов, и 9 из них из слишком родственных организмов (взят белок с идентификатором HUTP_BACSU, а по заданию родственные HUTP_BACXX уже не подходят - родовое название организма отражается первыми тремя буквами второй части идентификатора). Имеются два белка HUTP_GEOXX - опять относящиеся к одном роду, поэтому можно взять только один из них. Беру HUTP_GEOTN. Повышение порога на E-value и поиск без ограничения таксона результатов не прибавили.

Провожу поиск с теми же параметрами по базе данных nr. Получаю 56 возможных гомологов.

Но для дальнейшей работы, необходимо провести сравнение белковых последовательностей именно из SwissProt, поэтому органичиваюсь тем немногим, что нашлось. Сразу исключаю белок с процентом сходства более 90%. Среди оставшихся белков большая часть схожих между собой, поэтому ограничусь рассмотрением шести последовательностей.

Создаю в рабочей директории файл myproteins.list со списком "адресов" выбранных последовательностей.

Выполняю (в своей рабочей директории на kodomo-count) команду:

seqret @myproteins.list myproteins.fasta

Получаю файл myproteins.fasta с последовательностями в fasta-формате. Знак "@" указывает программе seqret, что входной файл надо рассматривать как лист-файл, а не как файл с последовательностями.

b. Строю множественное выравнивание моего белка и всех найденных гомологов.

Открываю выравнивание в JalView, через меню File загружаю файл с последовательностями. Далее через меню Web Service - Alignment строю выравнивания.

Выравнивание с помощью Clustal - очень популярной программы множественного выравнивания, рботающей в три этапа. Первый - попарное выравнивание всех со всеми для оценки сходства. Второй этап - построение филогенетического дерева. Заключительный этап - глобальное выравнивание.

Увеличенная версия.

Выравнивание с помощью программы TCoffee (Tree-based Consistency Objective Function For alignment Evaluation), имеющей расширенные возможности оценки качества выравнивания и выявления мотивов.

Увеличенная версия.

Данные выравнивания расскрашены с помощью ClustalX - специальная схема раскраски аминокислотных остатков.

Вижу, что полученные выравнивания довольно схожи, далее буду описывать выравнивание, полученное Clustal, т.к. эта программа более популярна, чем TCoffee.

c. Описываю структуру выравнивания.

К моему выравниванию термин “множественное выравнивание” применим только отчасти, но буду использовать то, что есть.

О консервативности и предположительной гомологичности можно говорить, если длина участка во множественном выравнивании не менее 4-5 остатков.

Подразумевается, что крайние позиции рассматриваемого участка - функционально консервативны.

Критерии сходства зависят от длины участка:

длина 4 - все позиции функционально консервативны,

длина 5 - не менее 3х функционально консервативных позиций, нет символов пропуска “-”,

длина 10 - не менее 50% функционально консервативных позиций, нет символов пропуска “-” или есть не более, чем в одной колонке,

длина 100 - содержит, по крайней мере, несколько коротких консервативных участков.

Для парных выравниваний критерии сходства последовательностей, убеждающего в гомологии, существенно строже, чем для множественного, т.к. совпадение букв в 4-х идущих подряд колонках парного выравнивания может получиться случайно.

Использовав окраску по BLOSSUM62, нахожу участки с повышенной долей консервативных позиций в моем выравнивании. Окраска устроена так: подкрашены те остатки, которые совпадают с консенсусом в данной колонке или имеют положительный вес в BLOSUM62 с ним; интенсивность цвета зависит от веса в матрице, т.е. максимальная - для остатков, совпадающих с консенсусом. Изображение с окраской при параметрах по умолчанию:

Увеличенная версия.

Изображение при раскраске по консервативности с порогом 100:

Увеличенная версия.

Из изображений следуют координаты консервативных позиций. Консервативные участки хорошо заметны благодаря разметке Conservation с индексами от 0.0 (".") до 11.0 ("*"); "+" соответствует 10.0, остальные значения указаны как цифры от 1 до 9. Цвета колонок и цифр под ними определяются индексом (от коричневого к желтому по мере его увеличения). При оценке учитываются физико-химические свойства выравнивания: вес идентичности, замены аминокислот.

Вес по BLOSSUM62 отражается Quality - качество колонки, зависящее от суммы весов замен.

Consensus показывает преобладающий а.о. в колонке выравнивания и процент его встречаемости. В случае одинаковой встречаемости а.о. ставится знак "+", наведя курсор на столбец можно узнать наиболее часто встречающиеся а.о. и процент их встречаемости.

По заданию, мне нужно выбрать участки, содержащие не менее 4-5 остатков. Снизив порог до 30, получаю:

Увеличенная версия.

Номер участка Координаты по столбцам выравнивания Координаты по остаткам моего белка Комментарии
1 8-20 8-20 Участок из 13 остатков содержит только 5 идентичных столбцов (с одинаковыми остатками в последовательностях на данной позиции), в его шестом столбце видна замена серина моего белка на аланин, в десятом - лейцина на аланин (положительны по весу). Данные участки довольно схожи, поэтому, наверное, все же имеют определенную биологическую функцию.
2 36-47 35-46 Половина столбцов идентичны, 3 схожи - вполне конвервативный участок.
3 50-60 49-59 Из 11 позиций идентичны - 7, 3 - схожи, а по десятому остатку моего белка - положительная по весу мутация (серин на аланин). Участок консервативен.
4 74-91 73-90 Из 18 позиций идентичны - 13, остальные схожи или с мутациями. Участок консервативен.
5 93-112 94-113 Из 20 позиций идентичны - 12, 7 - схожи. Участок консервативен.
6 117-134 118-135 Из 19 позиций идентичны - 13, по восьмой позиции опять замена серина на аланин, остальные также схожи (или с заменами на схожие аминокислоты). Участок консервативен.

Если бы в выравнивании не рассматривался последний белок, программа выделила бы как консервативные и положения 136-149, впринципе они вполне схожи, поэтому шестой участок с повышенной долей консервативных позиций можно было бы продлить до конца последовательностей.

Но в седьмой последовательности произошла делеция, хотя седьмой белок также относится к HutP-семейству. Вероятно, он имеет функции, отличные от функций остальных белков семейства, тем не менее можно предположить, что участок выравнивания 136-149 не так важен в биологическом смысле, как сохранившиеся во всех последовательностях консервативные участки 1-6.

Консервативные участки меньше четырех остатков (63-65, 69-71), скорее всего не имеют биологического смысла (например, они могут являться участками, по которым происходят химические мутации - гликозилирование, фосфорилирование и т.п.).

Скачать multaligns.msf.

d. Указываю, какие группы сходных аминокислот образуют в моем выравнивании функционально консервативные позиции.

Использую окраску по матрице BLOSSUM62 с порогом консервативности 15.

Увеличенная версия.

Нашлись функционально консервативные последовательности максимум из двух позиций. Это: AL (4) - чаще всего встречающаяся, ET (3), LL (2), AA (2), GL (2), RG (2). Хотя можно было выделить и иные, в связи с пересечением участков. К тому же много схожих по весу последовательностей, имеющих, соответственно близкие свойства и функции (например, AL - AK).

Скачать multiplealigns.jar.

2. Программа Muscle.

Задача – получить выравнивание вирусных белков, называемых "малыми дельта-антигенами", посредством программы muscle и посмотреть на него в JalView.

Чтобы получить последовательности малых дельта-антигенов из банка Swiss-Prot, пользуюсь SRS. Все дельта-антигены происходят из вирусов рода "Deltavirus" и имеют в описании слово "delta"; малые дельта-антигены в описании имеют ещё слово "small". Поэтому в SRS создаю запрос к банку Swiss-Prot, написав: в поле Taxonomy - Deltavirus, в Description - small&delta. 17 найденных последовательностей сохраняю в fasta-формате с помощью кнопки Save (Save results), параметров Output To: File (text), Save with view: FastaSeqs.

Получаю файл с последовательностями - delta.fasta.

Открываю файл в JalView. Это невыровненные последовательности. Выравниваю их с помощью muscle (multiple sequence comparison by log-expectation) - популярная программа множественного выравнивания белковых и нуклеотидных последовательностей, часто выдает выравнивания лучше, чем Clustal, и значительно быстрее, особенно при работе с большими выравниваниями. Соединяюсь с kodomo, делаю активной рабочую директорию, а затем выполняю команду:

muscle -in delta.fasta -out delta_aligned.fasta

После -in стоит имя входного файла, после -out - выходного. Выходной файл delta_aligned.fasta (по умолчанию) имеет fasta-формат, но содержит, в отличие от входного, не просто набор последовательностей, а выравнивание.

Выравнивание с помощью muscle осуществимо и через JalView. В принципе, результат получается такой же, но последовательности остаются в заданном порядке (при параметрах по умолчанию), а в первом случае - они выдаются по увеличению длины последовательностей.

Пользуясь возможностями JalView, подбираю по своему вкусу раскраску консервативных и функционально консервативных позиций для выравнивания через kodomo. Использую расскраску по BLOSSUM62 по принципу консервативности с порогом 20.

Увеличенная версия.

Нетрудно заметить, что консервативных участков довольно много. Имеются даже идентичные с большой протяженностью: 50-54, 70-73, 102-112, 126-131, 161-170, 174-180 (координаты для выравнивания). В качестве функционально консервативных можно выделить, например, RK, KK, GG, LS и т.д. Также примечателен участок из пяти глутаминов.

Выравнивание с раскраской в файле delta.msf.

3. Отображение консервативных участков последовательности на структуре.

Пользуясь Jalview, в выравнивании из задания 1 связываю мою последовательность с файлом PDB.

Для этого навожу курсор на имя последовательности, использую правую кнопку мыши - Structure - Associate structure with sequence - Enter PDB ID и указываю PDB ID (1WPV). Далее показываю структуру: Structure - View structure, появляется окно Jmol со структурой моего белка.

Открываю окно со структурой и раскрашиваю выравнивание по консервативности, используя схему раскраски BLOSUM62 с порогом 30.

Слева приведен полученный результат.

Консервативные остатки расположены и в ядре глобулы, и на поверхности; входят в состав как α-спиралей, так и β-листов.






В качестве лигандов для моего белка характерны гистидин и магний.

В их связывании из цепи А учавствуют остатки аргинина 88 и 98, аланина 131, выделенные на рисунке слева. Видно, что они являются консервативными (с максимальным индексом консервативности 11), что вполне предсказуемо.













4. Другие программы множественного выравнивания.

Помимо muscle, на kodomo установлены и другие программы выравнивания, например, mafft и edialign.

Программа mafft предлагает ряд методов выравнивания, например, L-INS-i (точный; для < 200 последовательностей из < 2000 а.о./нуклеотидов), FFT-NS-2 (быстрый; < 10000 последовательностей).

Синтаксис для точного выравнивания:

mafft in > out mafft --retree 1 in > out (fast)

Для быстрого выравнивания:

mafft --maxiterate 1000 --localpair in > out (% linsi in > out is also ok)

mafft --maxiterate 1000 --genafpair in > out (% einsi in > out)

mafft --maxiterate 1000 --globalpair in > out (% ginsi in > out)

В случае неуверенности:

mafft --auto in > out

Параметры:

--op # - штраф за открытие гэпа, по умолчанию: 1.53.

--ep # - штраф за продление гэпа; по умолчанию 0.0.

--maxiterate # - максимальное число многократных улучшений, по умолчанию: 0.0.

--clustalout - выходной файл: clustal-формат, по умолчанию: .fasta.

--reorder - порядок в выходном файле, по умолчанию: как во входном файле.

--quiet - не оповещать о текущем прогрессе.

--thread # - число потоков (# должно быть меньше или равно числу физических ядер - 1).

Провожу выравнивание для малых дельта-антигенов по типу точного:

mafft --maxiterate 1000 --globalpair delta.fasta > delta_mafft.fasta

Получаю выравнивание delta_mafft.fasta.

Программа edialign принимает один входной файл и выдаёт два выходных файла, из который первый содержит "текст для чтения", а второй - выравнивание в fasta-формате (поэтому только второй пригоден для обработки другими программами, например, для импорта в JalView).

Снова провожу выравнивание для малых дельта-антигенов:

edialign delta.fasta delta.edialign delta_edi.fasta

Получаю файлы delta.edialign и delta_edi.fasta.

Выравнивания, выданные mafft и edialign не идентичны - различия в позициях начальных гэпов, но в целом выравнивания очень схожи.

5. Знакомство с некоторыми программами обработки множественных выравниваний.

Программы consambig, distmat и plotcon входят в пакет EMBOSS, поэтому их можно запускать в интерактивном режиме (выполнить соответствующую команду без параметров и затем отвечать на вопросы).

Чтобы прочитать подробное описание программы из EMBOSS, можно выполнить команду tfm с параметром - именем программы, например:

tfm distmat

Описание листается как выдача программы more - клавишами "пробел" и "Enter", выход - клавиша "q".

Посмотреть список программ пакета EMBOSS, имеющих отношения к выравниваниям, можно, выполнив команду:

wossname alignment

Описание программ consambig, distmat и plotcon приведено в описании раздела EMBOSS.

6. Перечислите (и кратко опишите) освоенные вами возможности JalView на странице "Описания программ".

Моя страница "Описания программ" занята под EMBOSS и Bash, поэтому я приведу описание здесь.

JalView - редактор множественных выравниваний, написанный в Java. Широко используется на различных веб страницах (например, the EBI Clustalw server and the Pfam protein domain database), но доступен главным образом для редактирований и анализа выравниваний.

При использовании Jalview в работах, желательно цитировать публикацию:

Waterhouse, A.M., Procter, J.B., Martin, D.M.A, Clamp, M. and Barton, G. J. (2009) "Jalview Version 2 - a multiple sequence alignment editor and analysis workbench" Bioinformatics 25 (9) 1189-1191 doi: 10.1093/bioinformatics/btp033

Возможности, освоенные мной:

  • загрузка и добавление через меню File файлов с последовательностями и выравниваниями, из файла на локальном компьютере или из базы данных, указав ID (Fetch) (можно использовать и файл на удаленном компьютере через URL)
  • выравнивание последовательностей или изменение выравниваний с помощью программ Clustal, TCoffee, Muscle (имеются и другие), используя меню Web Service - Alignment строю выравнивания
  • раскраска выравниваний с помощью ClustalX и по матрице BLOSSUM62 с учетом функциональных групп остатков, а точнее - матрицы весов замен (имеется много других вариантов); раскраска с учетом консервативности (Color - By conservation)
  • изменение порядка последовательностей в режиме "мышь"
  • переключение режимов "мыши" и "стрелки" (F2), навигация
  • создание групп
  • редактирование выравниваний в режиме "стрелки" - л.к.м. и "Shift" - редактирование одной последовательности, л.к.м. и "Ctrl" - группы или выделения
  • разметка выравниваний: нижняя панель - для строк разметки, по умолчанию 3 разметки - консервативные участки хорошо заметны благодаря разметке Conservation с индексами от 0.0 (".") до 11.0 ("*"); "+" соответствует 10.0, остальные значения указаны как цифры от 1 до 9, цвета колонок и цифр под ними определяются индексом (от коричневого к желтому по мере его увеличения), при оценке учитываются физико-химические свойства выравнивания: вес идентичности, замены аминокислот; вес по BLOSSUM62 отражается Quality - качество колонки, зависящее от суммы весов замен; Consensus показывает преобладающий а.о. в колонке выравнивания и процент его встречаемости, в случае одинаковой встречаемости а.о. ставится знак "+", наведя курсор на столбец можно узнать наиболее часто встречающиеся а.о. и процент их встречаемости
  • добавление 3D структуры, связывание ее с последовательностью и представление в Jmol, для этого навожу курсор на имя последовательности, использую правую кнопку мыши - Structure - Associate structure with sequence - Enter PDB ID и указываю PDB ID, далее показываю структуру: Structure - View structure, появляется окно Jmol со структурой моего белка
  • управление Jmol - в командной строке работает большинство команд Rasmol, импортирование структур
  • сохранение проектов и результатов в различных форматах


    © Eugenia Prokhorova 2011