Эволюция белков митохондриальных рибосом

Постановка задачи

Биологическая смысл задания состоит в том, чтобы подтверждить или опроверженenm гипотезу о том, что митохондрии эукариот произошли от альфапротеобактерий, а не от гаммапротеобактерий. Для решения это задачи исследуется сравнение последовательностей рибосомального белка S14 альфа- и гаммапротеобактерий с их ортологами из митохондрий.

  1. Поиск бактериальных гомологов рибосомального белка S14 по нормированному профилю белков митохондриальных рибосом эукариот.
    1. Общая характеристика обучающей выборки
      Необходимые для изучения последовательности были получены с помошью поисковой системы SRS следующим запросом:
      DESCRIPTION ribosomal protein s14 
      TAXONOMY eukaryota 
      KEYWORDS mitochondrion 
      
      В базе данныз Swiss-prot было найдено 14 записей (на 4 больше, чем при поиске с условием ORGANELLE - mitochondrion) . Соответствующие последовательности были сохранены в формате fasta в одном файле. Также были сохранены ID и AC этих последовательноcтей.
      RT14_ACACA  P46761 
      RT14_BIGNA  P48945 
      RT14_BOVIN  Q6B860 
      RT14_BRANA  P49387 
      RT14_CAEEL  P49391 
      RT14_DICCI  P0C5Y1 (*)
      RT14_DICDI  O21035 (*)
      RT14_HUMAN  O60783 
      RT14_MARPO  P26873 
      RT14_MOUSE  Q9CR88 
      RT14_OENBE  P14875 
      RT14_PARTE  P15759 
      RT14_PROWI  P46752 
      RT14_VICFA  P05716
      
      По последовательности белка из человека (RT14_HUMAN) был проведен поиск доменов. Этой последовательности соответствует домен Ribosomal_S14 (PF00253), идентификатор в InterPro - IPR001209. В соответствующее семейство белков входят как эукариотические, так и бактериальные последовательности. Было получено выравнивание всех последовательностей, содержащих этот домен, из него были извлечены строки, соответствующие белкам исследуемой выборки, причем две последовательности из этой выборки в выравнивание Pfam не вошли (в списке они отмечены *). Как правило, этот домнен является единственным в белке, хотя описаны и другие архитектуры.

      Выравнивание доменов оследовательностей:

      Выравнивание доменов в GeneDoc Pfam12.msf
      Выравнивание полных последовательностей в GeneDoc all.msf
      получено с помощью программы muscle, добавлены веса с помощью программы pfm пакета PFTOOLS
      Полное выравнивание в формате HTML all.htm
      Несмотря на то, что в полном выравнивании последовательностей на 2 последовательности больше, высоко консервативные остатки одинаковы и в полном выравнивании и в доменном.
    2. По взвешенному выравниванию полных последовательностей был построен профиль с помощью pfmake.
      Простой профиль
      profil1.prf
      Затем профиль был нормирован с помощью autoscale.
      Нормированный профиль profil2.prf
      Нормированный и ненормарованный профили отличаются следующими строками в заголовке:
      ----ненормированный
      MA   /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=0.0000000; R2=0.0100000; TEXT='No_units';
      MA   /CUT_OFF: LEVEL=0; SCORE=850; N_SCORE=8.5; MODE=1; TEXT='!';
      MA   /CUT_OFF: LEVEL=-1; SCORE=650; N_SCORE=6.5; MODE=1; TEXT='?';
      ----нормированный
      CC   Automatic scaling using small database
      MA   /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=1.5137; R2=0.00964805; TEXT='NScore';
      MA   /CUT_OFF: LEVEL=0; SCORE=724; N_SCORE=8.5; MODE=1;
      MA   /CUT_OFF: LEVEL=-1; SCORE=516; N_SCORE=6.5; MODE=1;
      
      Эти строки оисывают, по какому принципу будут начисляться веса за находки по данному профилю.
    3. Обоснование выбора порога
      Результаты поиска по двум группам бактерий с разными значениями порога:
       Таксон   Альфапротеобактерии    Гаммапротеобактерии
        Порог                Число находок
       5.0             146                   309
       10.0             20                    30
       30.0              0                     0
      
      Среди найденных гомолгов был проведен поиск последовательностей, аннотации которых содержат антологии GO "cellular component" или "small ribosomal subunit". Результаты поиска говорят о том, что это семейство белков достаточно плохо проаннотарованно - только 2 находки из Альфапротеобактерий с порогом 5.0 имеют описаны термином "small ribosomal subunit", во всех остальных случаях поиск ничего не дал.

      После изучения результатов поиска с разными значениями порого, в том числе находок при пороговом значении 10.0 было выбрано пороговое значение 15.0, поскольку это наибольшее значение, при котором находится достаточное для анализа число последовательностей.
      Результаты поиска с порогом 15.0 для альфапротеобактерий alpha_out - 19 находок, для гаммапротеобактерий - gamma_out - 25 находок.

    4. Распределение нормированных весов находок в протеомах 2-х групп бактерий
      Были построены гистограммы распределения весов находок для гаммапротеобактерий и для альфапротеобактерий и изображены в одной координатной сетке.

      По гистограмме видно, что значения весов для белков из альфапротеобактерий сдвинуты вправо отностительно весов находок среди гаммапротеобактерий, то есть находки среди альфапротеобактерий лучше.
    5. Тест Вилькоксона
    6. Для того, чтобы выяснить, вызваны ли различия в весах в двух выборках (для двух разных таксонов) случайными колебаниями или веса в одной выборке значимо отличаются от весов в другой, был реализован тест Вилкоксона с помощью пакета статистических программ STADIA. Получен результат.
      КРИТЕРИИ СДВИГА (ПОЛОЖЕНИЯ).
                                  Переменные: alpha, gamma
      Вилкоксон=547, Z=-3,721, Значимость=0,0001, степ.своб = 18,25
         Гипотеза 1: <Есть различия между медианами выборок>
      
      Поскольку различия между выборками значимые, необходимо выяснить, какой выборке соответствуют большие значения. Для этого для каждой из выборок была применена процедура "описательная статистика" пакета STADIA для обеих выборок.
      ОПИСАТЕЛЬНАЯ СТАТИСТИКА. 
      Переменная   Размер  <---Диапазон--->  Среднее---Ошибка  Дисперс  Ст.откл   Сумма
          alpha       18    16,76    19,02    17,86   0,1942   0,6791   0,8241    321,5
       
      Переменная  Медиана   <--Квартили-->  ДовИнтСр. <-ДовИнтДисп->  Ош.СтОткл
          alpha    18,05    16,95    18,65    0,405   0,3824    1,527     0,34
       
      Переменная Асимметр. Значим  Эксцесс   Значим
          alpha -0,03566    0,471    1,401    0,048
      
      ОПИСАТЕЛЬНАЯ СТАТИСТИКА.  
      Переменная   Размер  <---Диапазон--->  Среднее---Ошибка  Дисперс  Ст.откл   Сумма
          gamma       25    15,82    17,75    16,82   0,1142   0,3262   0,5711    420,5
       
      Переменная  Медиана   <--Квартили-->  ДовИнтСр. <-ДовИнтДисп->  Ош.СтОткл
          gamma    16,82    16,61    17,18   0,2329    0,199   0,6313   0,2164
       
      Переменная Асимметр. Значим  Эксцесс   Значим
          gamma  -0,3804   0,1911    2,612   0,4147
      

      Обращаем внимание на медианы выборок. Медиана выборки весов для альфапротеобактерий больше, чем для гаммапротеобактерий, что свидетельствует о взаимном сдвиге распределений этих выборок. Следовательно, в совокупности, находки среди альфапротеобактерий лучше, чем среди гаммапротеобактерий.

  2. Филогенетический анализ рибосомальных белков S14 из эукариотических миохондрий и 3-х групп бактерий
    1. Описание выборки в виде таблицы:
      Группа источников рибосом Число последовательностей Среднее Id%
      альфапротеобактерии 19 65.5
      гаммапротеобактерии 25 81.6
      фирмикуты 6 44.8
      митондрии 14 42.3
    2. По множественному выравниванию последовательностей их альфа- и гаммапротеобактерий, фирмикут и митохондрий методом наибольшего правдоподобия было построено дерево:

      По топологии дерева можно сравнить количество узлов, которое нужно пройти от митохондриального белка до бактериального. В среднем, альфабактерии получаются несколько ближе к митохондриям, хотя напрямую по виде дерево это определить сложно. В то же время, хочется отметить, что последовательности их гаммапротеобактреий образуют более плотную группу, в то время как альфапротеобактериальные последовательности больше различаются внутри группы.

    3. Попарные эволюционные расстояния по Джуксу-Кантору вычислялись с помощью программы protdist пакета PHYLIP. Матрица попарных расстояний для полного выравнивания outfile
      Для сравнения попарных расстояний были построены два множественных выравнивания, одно для митохондрий и альфапротеобактерий, другое - для митохондрий и гаммапротеобактерий. Для них были построены матрицы попарных расстояний, из которых извлекались нужные данные. Распределение попарных расстояний отражено на гистограмме:

      Также попарные расстояния были извлечены из матрицы, построенной по полному множественному выравниванию, объединяющему альфа- и гаммапротеобактерии, фирмикут и митохондрии. По этим данным построена аналогичная гистограмма.

      По этим гистограммам нельзя с уверенностью описать одну из групп как имеющую меньшие или большие расстояния. Для подтверждения или опровеоржения рассмотриваемой гипотезы эти данные могут быть подвергнуты более детальной статистической обработке для того, чтобы определить, есть ли значимые различия между эволюционными расстояниями в этих выборках.
      По второй гистограмме можно предположить, что среди альфапротеобактерий есть некоторая группа, которой соответствуют меньшие расстояния чем гаммабактериям и остальным альфабактериям.

    Рабоча книга Excel содержит листы:
    веса гистограммы - построение первой гистограммы, описывающей распределение весов находок по профилю
    По данным выравниваний "митохондриальные+альфа" и "митохондриальные + гамма"
    альфа сходства - данные из матрицы эволюционных расстояний для альфпротеоабактерий
    гист1 - гистограмма распределения эволюционных расстояний для альфапротеобактерий
    гамма сходства - данные из матрицы эволюционных расстояний для гаммапротеобактерий
    гист2 - гистограмма распределения эволюционных расстояний для гаммапротеобактерий
    сходства общая - объединение гист1 и гист2, частоты в процентах от общего числа
    Вторая рабочая книга book2.xls- обработка матрицы попарных эволюционных расстояний по поному множественному выравниванию.
    data - необходимые участки общей матрицы
    hyst g - гистограмма для альфапротеобактерий
    hyst a - гистограмма для гаммапротеобактерий
    common hyst - общая (объединенная) гистограмма

    Дополнительные задания

    1. Исследуем гомологов рибосомального белка S14 из митохондрий человека.
      Проведем поиск по последовательности белка RT14_HUMAN (AC O60783) с помощью blastp и psiBlast в бактериях, в альфапротеобактериях и в гаммапротеобактериях.
      Последовательность белка:
      >swissprot|O60783|RT14_HUMAN 28S ribosomal protein S14, mitochondrial;
      MAAFMLGSLLRTFKQMVPSSASGQVRSHYVDWRMWRDVKRRKMAYEYADERLRINSLRKN
      TILPKILQDVADEEIAALPRDSCPVRIRNRCVMTSRPRGVKRRWRLSRIVFRHLADHGQL
      SGIQRATW
      
      Лучшее E-value каждого поиска
                   Бактерии    Альфапротеобактерии    Гаммапротеобактерии
      blastp         8e-15           1e-15                 1e-13
      psiBlast       5e-38           6e-36                 8e-40
      (3 итерации)
      
      Интересно отметить особенность результата psiBlast - для гаммабактерий характерно лучшее E-value первой находки, кроме того, про поиске по всем бактериям лучшие 5 находок принадлежат к гаммапротеобактериям, что несколько противоречит результатам предыдущих исследований. С другой стороны psiBlast адаптирован для поиска далеких гомологов и не вполне очеидно что по его результатам можно оценивать степень сходства двух групп. В то же время результаты blastp говорят в пользу проихождения митохондрий от альфапротеобактерий. Причем в этом случае, разница между альфа- и гаммапротеобактериями выражена достаточно явно.
    2. Резюме
    3. Было проведено сравнение рибосомальных белкоа S14 из митохондрий эукариот и двух таксонов бактерий. При сравнении различных параметров, описывающих сходство (и предполагаемую общность происхождения) между митохондриальными последовательностями и группами последовательностей из альфа- и гаммапротеобактерий. Сравнение весов находок по созданному профилю говорит о большем сходстве с альфапротеобактериями. О том же свидетельствует топология дерева, хотя и не так явно, и результаты поиска гомологов помощью программы blastp.