На главную страницу четвёртого семестра

Исследование филогенетического дерева белкового семейства MIP из бактериальных таксонов Lactobacillales, Mycoplasmataceae, архей и эукариот

Построение филогенетического дерева

   Для составления выборки белков семейства MIB из заданных таксонов использовалась поисковая система SRS. Запрос в поле Taxonomy содержал названия таксонов (Lactobacillales и Mycoplasmataceae), записанных через знак "|" (или), поле Links: DBxref содержало идентификатор Pfam данного семейства (PF00230). Всего по запросу было найдено 65 белков. Процесс фильтрования заключался в том, что фрагменты белков (менее 200 а.к.), а также белки из разных штаммов одного и того же вида (даже пусть и с разным описанием в поле Description) не попали в выборку; в последнем случае для выборки выбирались белки из подвида, у которого было найдено больше белков. Использовались лишь эти критерии, поэтому в выборку попали и достаточно необычные примеры похожих последовательностей из одного организма (и одного подвида), например, различающиеся всего на одну аминокислоту или полностью совпадающие во всём, кроме N-конца, где одна из них просто длиннее другой. Последний случай интересен тем, что все программы, вычисляющие эволючионные расстояния между последовательностями, не штрафуют концевые гэпы, то есть расстояние между этими двумя белками, посчитанное таким образом, оказалось равным нулю. В конечном счёте в выборке остался 41 белок.
   Аналогично были выбраны белки из архей (Taxonomy — Archaea) с тем же идентификатором Pfam, но при этом фильтрование последовательностей не производилась. В итоге нашлось 7 белков. После этого в выборку была включена внешняя группа из белков Q65YQ3_CHICK, Q5W916_BOMMO и AQP3_HUMAN.
   Итого в выборке оказалась 51 последовательность.

   Затем для этих белков было построено филогенетическое дерево. Это было сделано в 3 этапа.

   Для визуализации дерева по скобочной формуле была использована программа GeneMaster. Она немного по-другому воспринимает отрицательные длины ветвей, а именно приписывает им равные по модулю положительные значения, поэтому получившееся в результате дерево, разумеется, нельзя считать достоверным. Некоторые из последовательностей, особенно бактериальных, располагались очень близко друг от друга; поэтому длины ветвей (масштаб изображения, а не реальные расстояния между белками) были увеличены в 3 раза по сравнению с длинами, определяемыми по умолчанию, чтобы получить возможность расположить названия белков без наползания друг на друга. При этом изображение получилось довольно большим, поэтому ниже приведён уменьшенный его вариант; нажав на этот рисунок, можно увидеть дерево в исходном размере (формат gdt, рекомендуется открыть в новом окне). Справа от изображения приведены условные обозначения, поясняющие способ раскраски дерева.

Обозначения и способ раскраски:
  • Названия последовательностей из внешней группы выделены жирным шрифтом и подчеркнуты, соответствующие им ветви — наиболее толстые в дереве.
  • Ветви, соответствующие белкам из архей, выделены красным, их названия обведены в красную рамку.
  • Ветви разных групп ортологов покрашены в синий, зелёный, фиолетовый, розовый и оранжевый цвета, названия белков из этих групп подчёркнуты соответствующим цветом.
  • Для каждой из групп паралогов не существует отдельного обозначения; все названия белков, входящих хотя бы в одну группу паралогов, выделены жирным курсивным шрифтом, а ветви, соответствующие им, сделаны толще (но толщина меньше, чем для внешней группы). Конкретные группы белков-паралогов можно определить исходя из того, что эта группа принадлежит одному и тому же организму; сокращённое обозначение организма — последние 5 букв в названии последовательности.
  • Толщина линий не различима на рисунке, приведённом слева, поэтому рекомендуется пройти по ссылке и рассматривать дерево в полную величину.

Построение таксономического дерева

   С помощью ресурсов сайта NCBI было получено таксономическое дерево организмов, белки которых были включены в выборку. Оно представлено ниже как в текстовом формате, так и в графической форме, которая также была создана с использованием программы GeneMaster. Расстояния по дереву между двумя любыми узлами одинаковы и не несут никакой информации. Все узлы, кроме одного (который является корнем дерева), обозначают какой-либо таксон, а ветви, отходящие от такого узла по направлению к листьям, ведут либо в узел, обозначающий более мелкий таксон, либо в листья, то есть названия организмов.
cellular organisms
+ Archaea
+ + Euryarchaeota
+ + + Archaeoglobi
+ + + + Archaeoglobus fulgidus
+ + + Methanobacteria
+ + + + Methanothermobacter thermautotrophicus
+ + + Methanococci
+ + + + Methanococcus maripaludis
+ + + Methanomicrobia
+ + + + Methanosarcina barkeri
+ + Crenarchaeota
+ + + Sulfolobus
+ + + + Sulfolobus acidocaldarius
+ + + + Sulfolobus solfataricus
+ Eukaryota
+ + Coelomata
+ + + Protostomia
+ + + + Bombyx mori
+ + + Deuterostomia
+ + + + Amniota
+ + + + + Sauropsida
+ + + + + + Gallus gallus
+ + + + + Mammalia
+ + + + + + Homo sapiens
+ Bacteria
+ + Firmicutes
+ + + Bacilli
+ + + + Lactobacillales
+ + + + + Enterococcaceae
+ + + + + + Enterococcus
+ + + + + + + Enterococcus faecalis
+ + + + + + + Enterococcus faecium
+ + + + + Lactobacillaceae
+ + + + + + Lactobacillus
+ + + + + + + Lactobacillus acidophilus
+ + + + + + + Lactobacillus johnsonii
+ + + + + + + Lactobacillus plantarum
+ + + + + + + Lactobacillus rhamnosus
+ + + + + + + Lactobacillus sakei
+ + + + + Streptococcaceae
+ + + + + + Lactococcus
+ + + + + + + Lactococcus lactis
+ + + + + + Streptococcus
+ + + + + + + Streptococcus agalactiae
+ + + + + + + Streptococcus mutans
+ + + + + + + Streptococcus pneumoniae
+ + + + + + + Streptococcus pyogenes
+ + + + + + + Streptococcus thermophilus
+ + + Mollicutes
+ + + + Mycoplasma
+ + + + + Mycoplasma gallisepticum
+ + + + + Mycoplasma genitalium
+ + + + + Mycoplasma hyopneumoniae
+ + + + + Mycoplasma mobile
+ + + + + Mycoplasma mycoides
+ + + + + Mycoplasma penetrans
+ + + + + Mycoplasma pneumoniae
+ + + + + Mycoplasma pulmonis

Анализ дерева

   Для более удобного проведения анализа потребовалось вручную восстановить на дереве полные названия последовательностей, поскольку некоторые из них были обрезаны программой eprotdist.

   Сразу бросается в глаза то, что последовательности из внешней группы (эукариотические), а также последовательнысти из архей не собираются в два отдельных кластера, как следовало ожидать, а несколько более разобщены на дереве. Это объясняется описанной выше несогласованностью понимания обозначений использованных программ. Всё это обязывает к весьма осторожному поиску ортологов и паралогов на исследуемом дереве и к использованию в целях этого поиска только наиболее достоверные участки этого дерева.
   Больше всего согласуется с таксономическим деревом нижняя часть филогенетического дерева (по рисунку), представленная бактериальными белками; верхняя часть дерева, ввиду её малой достоверности и даже явной ошибочности, не исследовалась.

   Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования и, как правило, выполняющие одну и ту же функцию, поэтому их следует искать среди белков из разных организмов, расположенных близко друг от друга по дереву (в одном кластере).
   Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме и, как правило, выполняющие разные функции. Часто таким организмом бывает предшественник целой группы организмов (таксона), поэтому паралоги нужно искать среди белков одного организма, но расположенных в разных, иногда достаточно удалённых друг от друга кластерах.

   Ортологами можно считать белки, находящиеся в кластере, помеченном синим цветом. В их описании из БД Uniprot указано, что это либо аквапорины, либо канальные белки для глицерина. На родство функции, выполняемой этими белками указывает их близость на филогенетическом дереве, а дальнейшее ветвление этого кластера во многом соответствует таксономическому ветвлению. Два близкорасположенных белка из организма Streptococcus pneumoniae по сути, можно считать, выполняют одну функцию, но, поскольку последовательности их немного различаются, не исключено, что они произошли в результате дупликации гена, а значит, являются паралогами. Также паралогами могут считаться белки из Lactococcus lactis.

   Зелёным и фиолетовым цветами выделены другие кластеры предполагаемых ортологов среди белков семейства Lactobacillales. Поле Description Uniprot содержит такие же описания для этих последовательностей, что и для предыдущей группы ортологов (это неудивительно, ведь искались белки одного семейства), но, видимо, их функции всё-таки немного отличаются, поэтому они оказались в небольшом отдалении от предыдущей группы ортологов. Возможно даже, что две последние группы являются ортологами между собой, просто принадлежат к организмам разных таксономических ветвей, из-за чего немного удалены друг от друга. Нельзя сбрасывать со счетов и возможное ортологическое сходство и с группой из белков Q9CIV5_LACLA, Q3JZN6_STRA1 и Q9CIV5_LACLA; может быть на этот вопрос смогло бы ответить дерево, построенное чуть точнее. А вот пары белков Q3JZN6_STRA1 и Q3K3A4_STRA1, Q9CIV5_LACLA и Q9CG66_LACLA, Q88ZE9_LACPL, Q88ZX3_LACPL являются паралогичными друг другу (последняя пара — более далёкие), паралогами приходятся и белки из кластера, выделенного зелёным цветом, взятые из организма Streptococcus pneumoniae, хотя возможна и ошибка в секвенировании, ведь они отличаются всего на одну аминокислоту. Кроме того, в последних двух группах ортологов немало последоватедьностей, паралогичных белкам из группы, выделенной синим цветом.

   В кластере, выделенном розовым цветом, также присутствуют 2 возможных паралога и их ортолог из организма родственной группы. Эти белки также являются паралогами для некоторых других из рассмотренных выше групп.

   Наконец, есть целая группа ортологов среди белков рода Mycoplasma (выделена оранжевым цветом). Возможно, что эти белки ортологичны одной из групп ортологов из семейства Lactobacillales, но, в любом случае, определение среди всех рассмотренных выше групп явных ортологов исходя из имеющегося дерева представляется затруднительным. Интересно бы было посмотреть связь этой группы с белком Q98Q85_MYCPU, которая, безусловно, должна присутствовать, но, к сожалению, из-за ошибок в реконструкции дерева этот белок оказался на неправильном месте.

На главную страницу четвёртого семестра


© Лохматиков Алексей,2006