|
Эволюция белков митохондриальных рибосом
Постановка задачи
Биологическая смысл задания состоит в том, чтобы подтверждить или опроверженenm гипотезу
о том, что митохондрии эукариот произошли от альфапротеобактерий, а не от гаммапротеобактерий.
Для решения это задачи исследуется сравнение последовательностей рибосомального белка S14
альфа- и гаммапротеобактерий с их ортологами из митохондрий.
-
Поиск бактериальных гомологов рибосомального белка S14
по нормированному профилю белков митохондриальных рибосом эукариот.
- Общая характеристика обучающей выборки
Необходимые для изучения последовательности были получены с помошью поисковой системы SRS следующим запросом:
DESCRIPTION ribosomal protein s14
TAXONOMY eukaryota
KEYWORDS mitochondrion
В базе данныз Swiss-prot было найдено 14 записей (на 4 больше, чем при поиске с условием ORGANELLE - mitochondrion)
. Соответствующие последовательности были сохранены в формате fasta в одном файле. Также были сохранены ID и AC этих
последовательноcтей.
RT14_ACACA P46761
RT14_BIGNA P48945
RT14_BOVIN Q6B860
RT14_BRANA P49387
RT14_CAEEL P49391
RT14_DICCI P0C5Y1 (*)
RT14_DICDI O21035 (*)
RT14_HUMAN O60783
RT14_MARPO P26873
RT14_MOUSE Q9CR88
RT14_OENBE P14875
RT14_PARTE P15759
RT14_PROWI P46752
RT14_VICFA P05716
По последовательности белка из человека (RT14_HUMAN) был проведен поиск доменов. Этой последовательности
соответствует домен Ribosomal_S14 (PF00253), идентификатор в InterPro - IPR001209. В соответствующее семейство белков входят как
эукариотические, так и бактериальные последовательности. Было получено выравнивание всех последовательностей,
содержащих этот домен, из него были извлечены строки, соответствующие белкам исследуемой выборки, причем
две последовательности из этой выборки в выравнивание Pfam не вошли (в списке они отмечены *).
Как правило, этот домнен является единственным в белке, хотя описаны и другие архитектуры.

Выравнивание доменов оследовательностей:

Выравнивание доменов в GeneDoc Pfam12.msf
Выравнивание полных последовательностей в GeneDoc all.msf
получено с помощью программы muscle, добавлены веса с помощью программы pfm пакета PFTOOLS
Полное выравнивание в формате HTML all.htm
Несмотря на то, что в полном выравнивании последовательностей на 2 последовательности больше,
высоко консервативные остатки одинаковы и в полном выравнивании и в доменном.
- По взвешенному выравниванию полных последовательностей был построен профиль с помощью pfmake.
Простой профиль profil1.prf
Затем профиль был нормирован с помощью autoscale.
Нормированный профиль profil2.prf
Нормированный и ненормарованный профили отличаются следующими строками в заголовке:
----ненормированный
MA /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=0.0000000; R2=0.0100000; TEXT='No_units';
MA /CUT_OFF: LEVEL=0; SCORE=850; N_SCORE=8.5; MODE=1; TEXT='!';
MA /CUT_OFF: LEVEL=-1; SCORE=650; N_SCORE=6.5; MODE=1; TEXT='?';
----нормированный
CC Automatic scaling using small database
MA /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=1.5137; R2=0.00964805; TEXT='NScore';
MA /CUT_OFF: LEVEL=0; SCORE=724; N_SCORE=8.5; MODE=1;
MA /CUT_OFF: LEVEL=-1; SCORE=516; N_SCORE=6.5; MODE=1;
Эти строки оисывают, по какому принципу будут начисляться веса за находки по данному
профилю.
- Обоснование выбора порога
Результаты поиска по двум группам бактерий с разными значениями порога:
Таксон Альфапротеобактерии Гаммапротеобактерии
Порог Число находок
5.0 146 309
10.0 20 30
30.0 0 0
Среди найденных гомолгов был проведен поиск последовательностей, аннотации которых содержат
антологии GO "cellular component" или "small ribosomal subunit". Результаты поиска говорят о том,
что это семейство белков достаточно плохо проаннотарованно - только 2 находки из Альфапротеобактерий
с порогом 5.0 имеют описаны термином "small ribosomal subunit", во всех остальных случаях
поиск ничего не дал.
После изучения результатов поиска с разными значениями порого, в том числе находок при пороговом значении 10.0
было выбрано пороговое значение 15.0, поскольку это наибольшее значение, при котором находится достаточное для анализа
число последовательностей.
Результаты поиска с порогом 15.0 для альфапротеобактерий alpha_out - 19 находок,
для гаммапротеобактерий - gamma_out - 25 находок.
- Распределение нормированных весов находок в протеомах 2-х групп бактерий
Были построены гистограммы распределения весов находок для гаммапротеобактерий и для альфапротеобактерий и
изображены в одной координатной сетке.

По гистограмме видно, что значения весов для белков из альфапротеобактерий сдвинуты вправо отностительно
весов находок среди гаммапротеобактерий, то есть находки среди альфапротеобактерий лучше.
- Тест Вилькоксона
Для того, чтобы выяснить, вызваны ли различия в весах в двух выборках (для двух разных таксонов) случайными
колебаниями или веса в одной выборке значимо отличаются от весов в другой, был реализован тест Вилкоксона с
помощью пакета статистических программ STADIA. Получен результат.
КРИТЕРИИ СДВИГА (ПОЛОЖЕНИЯ).
Переменные: alpha, gamma
Вилкоксон=547, Z=-3,721, Значимость=0,0001, степ.своб = 18,25
Гипотеза 1: <Есть различия между медианами выборок>
Поскольку различия между выборками значимые, необходимо выяснить, какой выборке соответствуют большие значения.
Для этого для каждой из выборок была применена процедура "описательная статистика" пакета STADIA для
обеих выборок.
ОПИСАТЕЛЬНАЯ СТАТИСТИКА.
Переменная Размер <---Диапазон---> Среднее---Ошибка Дисперс Ст.откл Сумма
alpha 18 16,76 19,02 17,86 0,1942 0,6791 0,8241 321,5
Переменная Медиана <--Квартили--> ДовИнтСр. <-ДовИнтДисп-> Ош.СтОткл
alpha 18,05 16,95 18,65 0,405 0,3824 1,527 0,34
Переменная Асимметр. Значим Эксцесс Значим
alpha -0,03566 0,471 1,401 0,048
ОПИСАТЕЛЬНАЯ СТАТИСТИКА.
Переменная Размер <---Диапазон---> Среднее---Ошибка Дисперс Ст.откл Сумма
gamma 25 15,82 17,75 16,82 0,1142 0,3262 0,5711 420,5
Переменная Медиана <--Квартили--> ДовИнтСр. <-ДовИнтДисп-> Ош.СтОткл
gamma 16,82 16,61 17,18 0,2329 0,199 0,6313 0,2164
Переменная Асимметр. Значим Эксцесс Значим
gamma -0,3804 0,1911 2,612 0,4147
Обращаем внимание на медианы выборок. Медиана выборки весов для альфапротеобактерий больше, чем для
гаммапротеобактерий, что свидетельствует о взаимном сдвиге распределений этих выборок. Следовательно,
в совокупности, находки среди альфапротеобактерий лучше, чем среди гаммапротеобактерий.
- Филогенетический анализ рибосомальных белков S14 из эукариотических миохондрий и 3-х групп бактерий
- Описание выборки в виде таблицы:
Группа источников рибосом |
Число последовательностей |
Среднее Id% |
альфапротеобактерии |
19 |
65.5 |
гаммапротеобактерии |
25 |
81.6 |
фирмикуты |
6 |
44.8 |
митондрии |
14 |
42.3 |
- По множественному выравниванию последовательностей их альфа- и гаммапротеобактерий, фирмикут и митохондрий
методом наибольшего правдоподобия было построено дерево:

По топологии дерева можно сравнить количество узлов, которое нужно пройти от митохондриального белка
до бактериального. В среднем, альфабактерии получаются несколько ближе к митохондриям, хотя напрямую по
виде дерево это определить сложно. В то же время, хочется отметить, что последовательности их гаммапротеобактреий
образуют более плотную группу, в то время как альфапротеобактериальные последовательности больше различаются внутри группы.
-
Попарные эволюционные расстояния по Джуксу-Кантору вычислялись с помощью программы
protdist пакета PHYLIP.
Матрица попарных расстояний для полного выравнивания outfile
Для сравнения попарных расстояний были построены два множественных выравнивания, одно для митохондрий и
альфапротеобактерий, другое - для митохондрий и гаммапротеобактерий. Для них были построены матрицы попарных расстояний,
из которых извлекались нужные данные.
Распределение попарных расстояний отражено на гистограмме:

Также попарные расстояния были извлечены из матрицы, построенной по полному
множественному выравниванию, объединяющему альфа- и гаммапротеобактерии, фирмикут и
митохондрии. По этим данным построена аналогичная гистограмма.

По этим гистограммам нельзя с уверенностью описать одну из групп как имеющую меньшие или большие
расстояния. Для подтверждения или опровеоржения рассмотриваемой гипотезы эти данные могут быть
подвергнуты более детальной статистической обработке для того, чтобы определить, есть ли значимые различия между
эволюционными расстояниями в этих выборках.
По второй гистограмме можно предположить, что среди альфапротеобактерий есть
некоторая группа, которой соответствуют меньшие расстояния чем гаммабактериям
и остальным альфабактериям.
Рабоча книга Excel содержит листы:
веса гистограммы - построение первой гистограммы, описывающей распределение весов находок по профилю
По данным выравниваний "митохондриальные+альфа" и "митохондриальные + гамма"
альфа сходства - данные из матрицы эволюционных расстояний для альфпротеоабактерий
гист1 - гистограмма распределения эволюционных расстояний для альфапротеобактерий
гамма сходства - данные из матрицы эволюционных расстояний для гаммапротеобактерий
гист2 - гистограмма распределения эволюционных расстояний для гаммапротеобактерий
сходства общая - объединение гист1 и гист2, частоты в процентах от общего числа
Вторая рабочая книга book2.xls- обработка матрицы попарных эволюционных расстояний по
поному множественному выравниванию.
data - необходимые участки общей матрицы
hyst g - гистограмма для альфапротеобактерий
hyst a - гистограмма для гаммапротеобактерий
common hyst - общая (объединенная) гистограмма
Дополнительные задания
- Исследуем гомологов рибосомального белка S14 из митохондрий человека.
Проведем поиск по последовательности белка RT14_HUMAN (AC O60783) с помощью
blastp и psiBlast в бактериях, в альфапротеобактериях и в гаммапротеобактериях.
Последовательность белка:
>swissprot|O60783|RT14_HUMAN 28S ribosomal protein S14, mitochondrial;
MAAFMLGSLLRTFKQMVPSSASGQVRSHYVDWRMWRDVKRRKMAYEYADERLRINSLRKN
TILPKILQDVADEEIAALPRDSCPVRIRNRCVMTSRPRGVKRRWRLSRIVFRHLADHGQL
SGIQRATW
Лучшее E-value каждого поиска
Бактерии Альфапротеобактерии Гаммапротеобактерии
blastp 8e-15 1e-15 1e-13
psiBlast 5e-38 6e-36 8e-40
(3 итерации)
Интересно отметить особенность результата psiBlast - для гаммабактерий характерно
лучшее E-value первой находки, кроме того, про поиске по всем бактериям лучшие 5 находок
принадлежат к гаммапротеобактериям, что несколько противоречит результатам предыдущих исследований.
С другой стороны psiBlast адаптирован для поиска далеких гомологов и не вполне очеидно что по его
результатам можно оценивать степень сходства двух групп. В то же время результаты blastp говорят в
пользу проихождения митохондрий от альфапротеобактерий. Причем в этом случае, разница между
альфа- и гаммапротеобактериями выражена достаточно явно.
- Резюме
Было проведено сравнение рибосомальных белкоа S14 из митохондрий эукариот и двух таксонов бактерий. При сравнении
различных параметров, описывающих сходство (и предполагаемую общность происхождения) между митохондриальными последовательностями и
группами последовательностей из альфа- и гаммапротеобактерий. Сравнение весов находок по созданному профилю
говорит о большем сходстве с альфапротеобактериями. О том же свидетельствует топология дерева, хотя и не так
явно, и результаты поиска гомологов помощью программы blastp.
|