Занятие 11. Профили



Задание 1.

Были переименованы последовательности согласно правилу: N_#_**_XXXXXX , где
N (1 или 3)- количество доменов в архитектуре
** - таксономия
#: Bacteria (B) либо Eukaryota (E)
XXXXXX - AC

НазваниеМнемоника
ActinobacteriaB_ac_
Bacteroidetes B_ba_
CyanobacteriaB_cy_
Firmicutes B_fi_
Proteobacteria B_pr_
Fungi Е_fu_
MetazoaЕ_me_


В формате mts: UPGMA , N-J

Изначально, выбранные для исследования архитектуры оказались неравноценными в плане представленности среди таксонов. Однодоменная архитектура более распространена, имеется у 1534 последовательностей, среди которых и бактерии, и эукариоты, представленные как грибами, так и животными, растениями. Трехдоменная архитектура менее распространена - всего 160 последовательностей, причем она беднее и в таксономическом плане: представлена в основном у бактерий, а среди эукариот - только у грибов (хотя я встречала и представителя из растений, ноу него был только небольшой фрагмент исследуемого домена). Так же, как ни печально бы это звучало, стоит заметить, что все выбранные белки оказались предсказанными, и лишь несколько у Metazoa имеют подтверждение на трансляционном уровне. И все же работаем, с тем, что имеем.

Как видно из изображения дерева, при обоих методах можно четко выделить 2 ветви, соответствующие 2-м разным архитектурам: синяя- для архитектуры, включающей 3 домена (PF00501, PF00550, PF00975); зеленая - для архитектуры, состоящей из 1 домена PF00975. При этом в обоих случаях получилось внутри каждой "большой" ветви достаточно четкое разбиение по таксонам (для большей наглядности разные таксоны показаны разным цветом). Стоит заметить, что в обоих случаях веточка грибов с архитектурой 1 ушла от своих "коллег" поближе к представителям архитектуры 3.

Также интересно, что в обоих случаях присутствуют своего рода "красные вороны" (показаны красными ветвями :)): так в двух случаях объединение в общую кладу было основано на таксономии, а не на доменной архитектуре. Причем, организмы, содержащие эти последовательности с разными архитектурами, оказались очень близкими в случае с Actinobacteria: они принадлежат одному роду.

Скобочная формула неукорененного дерева, построенного с помощью Neighbor-Joining. Формула дерева от UPGMA

В целом же, довольно-таки четко все последовательности можно разделить на 2 группы по архитектуре.

Задание 2. Построение профиля, отличающего 2 группы последовательностей

Были построены профили для 2-х групп: первая - последовательности с однодоменной архитектурой, вторая - последовательности с трехдоменной архитектурой.
Профиль для последовательностей с однодоменной архитектурой.
Профиль для последовательностей с трехдоменной архитектурой.

Оба профиля были исследованы на количество ошибок первого (ложноположительные) и второго (ложноотрицательные) родов.



Оказалось, что:

Пороговое значение Кол-во ошибок первого рода Кол-во ошибок второго рода Кол-во верно найденных последовательностей Кол-во верно пропущенных последовательностей
Профиль для однодоменной архитектуры 9,2 2 0 24 18
Профиль для трехдоменной архитектуры 8,5 2 0 20 22

Как оказалось, что все ложнонайденные последовательности относятся к тем самым "красным воронам". В случае поиска по профилю однодоменной архитектуры всегда вылезают и остаются 2 одни и те же лишние последовательности: E3BLC7_9VIBR и D5XVF3_MYCTU - носители трехдоменной архитектуры. В случае поиска по профилю трехдоменной архитектуры появляются однодоменные A1ACH4_ECOK1 и A0PTV0_MYCUA. Однако, при повышении порогового значения от них удается избавиться, но тогда среди находок пропадают их пары: E3BLC7_9VIBR и D5XVF3_MYCTU.

Задание 3. Поиск последовательностей м помощью профиля по SwissProt

В результате было обнаружено совсем немного последовательностей, которые приведены ниже. Для каждой установлена ее архитектура.

Цветами выделены последовательности с одинаковыми архитектурами.

При поиске по профилю однодоменных последовательностей было найдено 14 белков, из которых на самом деле однодоменной архитектурой обладали 11. В трех случаях были найдены четырех- (2 шт) и двухдоменные архитектуры. При этом нет ни одной ошибки при которой была бы найдена трехдоменная исследуемая ранее архитектура. Таким образом, можно заключить, что полученный для группы однодоменных последовательностей профиль достаточно хорошо различает 2 изучаемые группы.

При поиске по профилю трехдоменных последовательностей было найдено 15 белков, но ни один из них, к сожалению, не обладает исследуемой трехдоменной архитектурой. Стоит заметить, что не было найдено ни одной однодоменной последовательности. Также прнимечательно, что почти во всех найденных белках встречаются в разных сочетаниях домены PF00975, PF00501, PF00550 , которые составляли изначально исследуемую трехдоменную архитектуру. В итоге, построенный профиль не отличается селиктивностью.

Таким образом, еще раз можно отметить, что последовательность домена PF00975 в однодоменной архитектуре является наиболее отличительной, эксклюзивной по сравнению с последовательностями этого домена в мультидоменных архитектурах.


© SHADRINA О. А. 2012