Эволюция белков митохондриальных рибосомОдной из теорий возникновения митохондрий является теория симбиогенеза. Целью данного блока являлось исследование возможности происхождения митохондрий от альфапротеобактерий или от гаммапротеобактерий. В работе я рассматривала белок L14 большой субъединицы митохондриальной рибосомы. Последовательность белка по различным критериям сравнивалась с последовательностями рибосомальных белков альфа- и гаммапротеобактерий, на основании чего делались некоторые выводы.
Выбор последовательностей для исследованияДля начала нужно было создать выборку ортологичных белков из рибосом митохондрий эукариот. С помощью SRS в UniProt были найдены последовательности рибосомального белка L14, принадлежащего восьми разным организмам.Для этого в поисковой системе SRS по базе данных UniProtKB производился поиск по следующему запросу:
Description Ribosomal Protein L14 Description 39S Taxonomy Eukaryota Система выдала 8 находок, все последовательности которых были сохранены в формате FASTA. Отдельно можно просмотреть их коды доступа и идентификаторы. Найденные ортологичные аминокислотные последовательности имеют приблизительно равную длину - около 145 аминокислотных остатков. Единственной находкой, слегка выбивающейся из стройного ряда, является белок B0WL56_CULQU из Southern house mosquito, длиной в 157 АК. Такое различие в длине нельзя считать значительным, тем более что этот белок достаточно хорошо выравнивается с другими, как будет показано ниже. В каждой из записей банка UniProt, посвященной находкам, имеется ссылка на базу Pfam, причем на один и тот же домен PF00238. Доменная структура белка из митохондрий человека![]() Белок L14 человека состоит из 145 аминокислотных остатков, остатки 31-145 составляют домен Ribosomal_L14. Выравнивание PfamВ описании каждой из 8 найденных последовательностей имеется ссылка на домен PF00238. Однако в выравнивании, которое генерирует Pfam, присутствуют только 5 последовательностей. Их выравнивание можно просмотреть в Fasta-формате, либо в виде, выдаваемом GeneDoc. Также можно скачать файл GeneDoc.Выравнивание полных белковых последовательностейВсе 8 найденных последовательностей белка L14 были выровнены программой muscle на kodomo-count. В выравнивание добавлялись веса с помощью pwf из пакета pftools. Получилось следующее выравнивание: в Fasta-формате или раскрашенное; файл GeneDoc.Важно отметить, что выравнивание полных белковых последовательностей практически полностью соответствует выравниванию доменов, сгенерированному Pfam. Не наблюдается сдвигов последовательностей в выравнивании друг относительно друга. В первую очередь такое хорошее совпадение, пожалуй, объясняется большой схожестью восьми исследуемых последовательностей: в выравниваниях мы наблюдаем значительное число позиций, консервативных на 100%. Построение профилейПо взвешенному выравниванию восьми белковых последовательностей при помощи pfmake был построен профиль, который затем нормировался относительно случайной базы малого объема программой autoscale. Простой и нормированный профили отличаются значениями SCORE в поле MA (CUT_OFF) и R1/R2 в поле MA (NORMALIZATION), где R1 и R2 - коэффиценты функции нормирования.Поиск гомологов по профилюC помощью программы pfsearch пакета PFTOOLS производился поиск гомологичных белков среди альфа- и гаммапротеобактерий. Каждый поиск сначала повторили по 3 раза с разными значениями порога 5.0, 10.0, 30.0.С пороговым значением 30 не было найдено ни одного гомолога ни в одной группе. С порогом 10 нашлись 3 гомолога среди альфапротеобактерий и ни одного - среди гаммапротеобактерий. Для порогового значения 5 было обнаружено 218 гомологичных белков альфапротеобактерий и 588 - гаммапротеобактерий. Такое несогласие количества находок побудило меня провести поиск дополнительно для пороговых значений 6,8 и 9. Получилось, что для пороговых значений 8, 9 и 10 гомологов из альфапротеобактерий больше, чем из гаммапротеобактерий. Для порогов в 5 и 6 результат был противоположным. Это немного смущало, т.к. не совсем понятно, какие пороговые значения лучше выбрать для дальнейшей работы. В итоге руководствуясь тем, что для порога в 9 уже сравнительно мало находок, я выбрала значения 5, 6 и 8. Сравнение вариантов поискаИтак, мы рассматриваем 6 вариантов поиска гомологов - по 3 с различными значениями порога на каждую группу бактерий.Для каждого варианта при помощи скрипта определялось количество находок с GO идентификаторами "клеточный компонент" и "большая субчастица рибосомы". Все результаты занесены в таблицу: Результаты поиска по двум группам бактерий с разными значениями порога.
По данным таблицы можно заключить, что пороговое значение
5 не обеспечивает достаточной
"чистоты" выборки: при этом значении среди альфапротеобактерий
записей с GO "C:large ribosomal subunit" менее половины от общего числа,
а среди гаммапротеобактерий - менее трети.
При пороге в 6 уже меньшее число найденных гомологов не имеют
необходимого описания GO. А при пороге в 8 это количество стремится к 0.
Распределение нормированных весов находок в протеомах двух групп бактерийДля сравнения весов гомологичных находок альфа- и гаммапротеобактерий в Excel была построена диаграмма распределения значений весов.Диаграммы распределения
Количество находок среди альфапротеобактерий почти в
3 раза больше, чем среди гаммапротеобактерий, поэтому сравнивать абсолютные
количества находок среди 2 групп бактерий для разных карманов не имеет смысла.
Рабочие файлы: находки среди альфапротеобактерий и гаммапротеобактерий, книга Excel Тест ВилкоксонаПо распределениям весов находок в двух группах бактерий был в программе STADIA выполнен тест Вилкоксона.Его результат: Вилкоксон=2675, Z=-1,938, Значимость=0,0263, степ.своб = 60,22 Гипотеза 1: <Есть различия между медианами выборок>Таким образом, распределения весов находок в 2 группах бактерий различны. Для получения дополнительной информации воспользовались функцией "Описательная статистика": Для альфапротеобактерий:
Для гаммапротеобактерий:
Сравнивая статистические данные по 2 выборкам, можно сделать следующие выводы. Первоначально бросается в глаза тот факт, что диапазон значений весов находок для альфапротеобактерий шире, чем для гаммапротеобактерий (хотя по своей сути это наблюдение не является достаточно значимым). Больше нас интересует то, что выборочное среднее и медиана для альфабактерий больше, чем для гаммапротеобактерий Это говорит о том, что сравнивая на глаз гистограммы, мы были правы. Смещение средних значений весов свидетельствует о том, что в целом находки среди альфапротеобактерий "лучше". Дисперсии выборок показывают, что разброс значений весов находок меньше у гаммапротеобактерий (отчасти это связано с меньшим, по сравнению с альфапротеобактериями, объемом выборки). В общем, и тест Вилкоксона, и сравнение гистограмм показали, что находки среди альфапротеобактерий "лучше", чем среди гаммапротеобактерий. То есть наш профиль, построенный по митохондриальным белкам, находит в 3 раза больше "гомологичных" белков среди альфапротеобактерий, причем в среднем эти находки лучше удовлетворяют профилю, чем белки гаммапротеобактерий. В какой-то степени это свидетельствует о близости митохондриального белка L14 белкам альфа-, а не гаммапротеобактерий. Последовательности из Firmicutes были получены в результате поиска по SRS по запросу Description L14 Ribosomal Taxonomy FirmicutesИз 135 находок были выбраны 6 последовательностей из разных родов. Кратко информацию об исследуемых данных можно просмотреть в таблице: Описание выборки
При помощи программы muscle было построено множественное выравнивание всех исследуемых последовательностей. По нему программой proml из пакета PHYLIP было построено филогенетическое дерево методом максимального правдоподобия. Изображение дерева (из TreeView):
Пометку "e" имеют митохондриальные белки, "a", "g" -
соответственно альфа- и гаммапротеобактерий, "o" - белки из out-группы.
Эволюционные расстоянияДля 96 исследуемых последовательностей были определены попарные эволюционные расстояния по модели JTT с помощью программы protdist пакета PHYLIP.Полученную матрицу импортировали в Excel, где построили гистограммы распределения попарных расстояний между митохондриальными белками и белками из альфа- и гаммапротеобактерий. Гистограмма:
Отчетливо видно, что
медиана распределения количества последовательностей с определенным
эволюционным расстоянием между ними по расстоянию для альфапротеобактерий
лежит левее, чем для гаммапротеобактерий.
То есть в среднем
попарное эволюционное расстояние между митохондриями и гаммапротеобактериями
больше, чем между митохондриями и альфапротеобактериями. А это, в свою
очередь, говорит о том, что эволюционно митохондрии ближе альфапротеобактериям
(результат совпадает с выводами, сделанными по структуре дерева, и
это не удивительно: и матрица, и дерево строились по одному выравниванию).
Однако следует заметить, что исследуемые последовательности митохондриальных рибосом эукариот принадлежат очень близким организмам, вследствие чего слишком похожи. На практике это привело к созданию профиля, удовлетворяющего в большей степени лишь некоторой части митохондриальных рибосомальных белков L14. |