Практикум 12

Множественное выравнивание последовательностей белков

Автор старался, но не может гарантировать отсутствие биологических ошибок.

2. Сравнение выравнивания одних и тех же последовательностей разными программами

Было решено продолжить работу с представителями семейства доменов RNR_Alpha - им посвящался практикум 11. В UniProt были найдены 14 белков, содержащиеся в базе данных Swiss-Prot и в последовательности которых обнаружен домен PF17975: (xref:pfam-PF17975) AND (reviewed:true). Скачены их fasta последовательности: файл. Запустим Jalview. Проведем выравнивание различными предлагаемыми в Web Allignment программами. Получившиеся fasta-файлы с выравниванием: Tcoffee, Probcons, Muscle, Mafft, MSAprobs, GLprobs, Clustal, ClustalO. Сравним программы множественного выравнивания, используя сервис VerAlign. Метод подсчета очков был выбран совместный: подсчет очков за колонки, подсчет очков за совпадание пар номеров букв в последовательности (самих букв естественно тоже). Остальные параметры оставлены по умолчанию. VerAlign был запущен для каждой пары программ MSA, очки записаны в таблицу excel. Затем был проведен анализ полученных результатов - рисунки 1, 2.

SP score analysis
Рисунок 1. Анализ результатов сравнения программ множественного выравнивания при подсчете очков за совпадающие колонки выравнивания.
SP score analysis
Рисунок 2. Анализ результатов сравнения программ множественного выравнивания при подсчете очков за совпадающие пары номеров букв в последовательностях.

Видно, что критерий совпадающих колонок является более строгим чем критерий совпадающих пар номеров букв в последовательностях. В данном случае, результаты Clustal больше всего отличаются от результатов остальных программ множественного выравнивания; выравнивание Probcons, наоборот, представляет собой компромисс множественных выравниваний. Было проведено более детальное сравнение Clustal и Muscle (наиболее отличающиес) - проект Jalview (рис 3), Tcoffee и Probcons (самые схожие) - проект Jalview (рис 4). Уже "глазками" видно, что столбцы выравнивания совпадают во втором случае намного чаще и одинаковые столбцы находятся ближе друг к другу. Пример для результатов программ Clustal и Muscle совпадающего участка: 96-110, несовпадающих колонок: 135 -156. Аналогично для результатов программ Tcoffee и Probcons: 114-224 и 225-243. Даже при случайно подобранных участках заметно, что для первой пары программ множественного выравнивания совпадения в выдаче происходят реже.

MSA 3D
Рисунок 3. Фрагмент сравнения выравниваний RNR_Alpha по программам Muscle (сверху) и Clustal (снизу).
MSA Muscle
Рисунок 4. Фрагмент сравнения выравниваний RNR_Alpha по программам Tcoffee (сверху) и Probcons (снизу).

3. Построение выравнивания по совмещению структур и сравнение его с выраваниванием MSA

Для выполнения задания было выбрано семейство ABC-транспортеров (ABC transporter) - ABC_tran (PF00005). Семейство принадлежит семейству АТФ-связывающих кассет (ATP-Binding Cassette superfamily). Обычно молекулы состоят из имнимум двух регионов: АТФ-связывающей кассеты и трансмембранного домена (TMD). Второй, как правило, менее консервативен.
Представители семейства (таблица 1) были найдены в базе UniProt (выбраны проверенные белки с известной 3D-структурой): (xref:pfam-PF00005) AND (reviewed:true) AND (existence:1). Для выравнивания использовался онлайн-инструмент pairwise structure alignment на RCSB PDB. Выравнивание 3D-структур в PDB: ссылка. Далее были скачены 3D-структуры в формате .cif и открыты в PyMol, результаты сравнений 3D-структур представлены на рисунках 5-8.

Таблица 1. Информация о выбранных представителях ABC_tran.
AC ID Organism PDB
Q9NRK6 ABCBA_HUMAN Homo sapiens (Human) 3ZDQ
P77499 SUFC_ECOLI Escherichia coli (strain K12) 2D3W
P40024 ARB1_YEAST Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) 6R84
Q9JJ59 ABCB9_MOUSE Mus musculus (Mouse) 7V5C
ABCB25 AB25B_ARATH Arabidopsis thaliana (Mouse-ear cress) 7N58
All ABC-transporters
Рисунок 5. Выравнивание ABC_tran для 5 организмов: H. sapiens - розовый, E. coli K12 - зеленый, S. cerevisiae - красный, M. musculus - голубой, A. thaliana - синий.
Mouse, plant and yeast
Рисунок 6. Выравнивание ABC_tran для S. cerevisiae (красный), M. musculus (голубой), A. thaliana (синий).

Заметно, что 3D-структура белка для бактерии (E.coli) меньше, что скорее связано с тем, что домены ABC-транспортеров иногда разделяются по разным цепям, а для анализа всех организмов отбирались только A цепи соответствующих молекул (рис 5). По современной систематике принято относить растений к надцарсту Archaeplastida, грибы и животные же выделяются в Amorphea, поэтому удивительно, что структуры выбранных белков более схожи для растения и дрожжей, чем для мышки и дрожжей (рис 6). Более ожидаемым было сходство структур для мышки и человека (рис 7), а также дрожжей и растений (рис 8), по сравнению с пространственной конфигурацией для бактериального белка, ведь все выбранные организмы относятся к эукаритам, кроме E.coli, являющейся представителем прокариот.

Human, plant and bacteria
Рисунок 7. Выравнивание ABC_tran для H. sapiens (розовый), E. coli K12 (зеленый), M. musculus (голубой).
Mouse, bacteria and yeast
Рисунок 8. Выравнивание ABC_tran для E. coli K12 (зеленый), S. cerevisiae (красный), A. thaliana (синий).

Из сервиса выравнивания на RCSB PDB также был скачен fasta-файл выравнивания. К сожалению, там была представлена совокупность парных выравниваний с первым белком (в данном случае - белок человека, 3ZDQ). Проект Jalview первоначальный, где можно наблюдать эти парные выравнивания. Ручное подравнивание четырех последовательностей предполагает большую вероятность возникновения ошибки из-за человеческого фактора, поэтому для получения удобного вида множественного выравнивания написан скрипт на Python. Был получен новый fasta-файл, содержащий выравнивание 5 последовательностей по совмещению пространственных структур. Проекты Jalview с последовательностями целиком, с выделенным основным доменом (АТФ-связывающая кассета). Затем были удалены все гэпы и последовательности были выравнены программой Muscle с настройками по умолчанию. Jalview проекты с результатом для всей последовательности, с выделенным фрагментом. Выравнивания можно сравнить "глазками" на рисунках 9,10, а также в проекте Jalview. Основной тренд - в выравнивании на основе пространственных структур индели значительно длиннее и чаще, чем при выравнивании программой Muscle. Сервис Veralign выдавал ошибку при попытке сравнить два выравнивания, возможно, потому что они отличаются по длине на приблизительно 160 колонок.

MSA 3D
Рисунок 9. Фрагмент выравнивания ABC_tran по 3D-структурам.
MSA Muscle
Рисунок 10. Фрагмент выравнивания ABC_tran по программе Muscle.

4. Краткое описание Muscle - программы MSA

Общая информация

MUSCLE (Multiple Sequence Comparison by Log-Expectation) - программа для множественного выравнивания последовательностей аминокислот и нуклеотидов. Первые статьи про программу появились еще в 2004 году. Считается, что при правильном подборе опций Muscle способна получать результаты быстрее и точнее, чем ClustalW и TCoffee. В целом даже при опциях по умолчанию, MuscleV5 генерирует высокоточное выравнивание. Программа установлена и на kodomo (пример использования - практикум 9), принимает на вход различные опции, из которых обязательная -in 'входной файл fasta-формата', помощь можно вызвать по man muscle или muscle -help.

Алгоритм

Выделяют три стадии выравнивания в MUSCLE: черновик прогрессивного выравнивания, улучшенное прогрессивное выравнивание и стадия отладки.
Стадия 1. Строится бинарное дерево на основе матрицы расстояний. Для каждого узла в дереве, начиная с "листьев", строится парное выравнивание. По достижении "ствола" дерева имеется множественное выравнивание всех входных последовательностей. На этой стадии основной упор на скорость, а не на точность.
Стадия 2. На основе имеющегося дерева и множественного выравнивания строится новая матрица расстояний. Затем как и на 1 стадии строится множественное выравнивание, при этом выравнивания для неизменных пар не пересчитываются. Получаем более оптимальное дерево и увеличивается точность множественного выравнивания.
Стадия 3. Рекурсивно выполняется следующий порядок действий до достижения конвергентности или лимита, установленного пользователем:
 1) выбирается "ветка" дерева из второй стадии
 2) выбранная "ветка" выделяется в качестве самостоятельного дерева и удаляется из первоначального дерева - получаем два под-дерева;
 3) профиль множественного выравнивания вычисляется для каждого из под-деревьев;
 4) перевыравниваются выравнивания из каждого под-дерева - получаем новое множественное выравнивание;
 5) происходит оценка нового множественного выравнивания, если у него больше пар совпадающих позиций (SP score), то новое выравнивание сохраняется, иначе - удаляется.
"Ветки" отбираются в порядке увеличения расстояния от "ствола".

Список литературы

  1. Edgar RC. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 2004 Mar 19;32(5):1792-7. doi: 10.1093/nar/gkh340. PMID: 15034147; PMCID: PMC390337.
  2. Edgar, R.C. MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics 5, 113 (2004). https://doi.org/10.1186/1471-2105-5-113
  3. Official page
  4. Online EMBL version
  5. Основной источник информации