Эволюционные домены. Занятие 12.

1. Разделить выравнивание представителей домена, построенное в практикуме 9, на две группы.


Можно использовать следующие варианты деления:

 - разделить по доменной архитектуре белков
 - разделить по таксономии организмов
 - разделить на основании анализа дерева

Для обоснования деления выравнивания еще раз приведем проект JalView с делением выравнивания по группам.


no picture here


По изображению выравнивания наглядно видно деление последовательностей на группы (см. проект JV) по консервативности, а также структуре гепов.
Также нельзя забывать, что последовательности Группы 2 (4_V_Group) относятся к четырехдоменной архитектуре, а группы 1 (2_Group) - к 2-доменной.
Кроме того, граница оказалось проложенной и по таксономии (различия на уровне Типа на Vibrionales и остальные таксоны), и с помошью филогенетических дереьев (см. практикум 10).


Следовательно, деление по группам, сделанное уже давно, остается, так как удовлетворяет не только какому-то одному, но всем предложенным критериям.


2. Построить профиль, отличающий одну группу последовательностей от другой.



из файла выравнивания в JalView были получены два файла выравниваний для соответствующих групп, сохраненные в msf-формате: seq_11_nrt_2.msf и seq_11_nrt_4.msf.

Вручную подгоним файл под читаемый формат.
Далее (как видно из команд ниже) избавимся от символов возврата строк и "взвесим" последовательности.
После этого получим профили my_2.prf и my_4.prf.
noreturn -infile seq_11_nrt_2.msf -outfile seq_11_nrt-2.msf
pfw seq_11_nrt-2.msf > seq_2_w.msf
noreturn -infile seq_11_nrt_4.msf -outfile seq_11_nrt-4.msf
pfw seq_11_nrt-4.msf > seq_4_w.msf  
pfmake seq_2_w.msf /usr/share/pftools23/blosum62.cmp > my_2.prf
pfmake seq_4_w.msf /usr/share/pftools23/blosum62.cmp > my_4.prf

Файл с общим выравниванием последовательностей, в котором содержались также дополнительные "запасные" последовательности, был лишен гепов, после чего по нему был осуществлен поиск с порогом 0.0. Речь идет о последовательностях, удовлетворивших условиям выбора в практикуме 9, но отброшенных за ненадобностью большого числа последовательностей. Эти последовательности не приняли участия в создании профиля, но могли бы помочь ответить на вопрос об использовании данного профиля для последовательностей, по которым он не строился (своего рода внешняя группа).
pfsearch -C 0.0 -f my_2.prf seq_10_2.fasta| sort -nr > scores_2.txt
pfsearch -C 0.0 -f my_4.prf seq_10_2.fasta| sort -nr > scores_4.txt
После конвертации в xls-формат в файле были сохранены (.xlsx) визуализованные данные о весах и специфичности/чувствительности поиска по профилю для 2-доменной структуры (первый лист) и 4-доменной структуры (второй лист).

no picture here no picture here

На графиках весов находок показан нормализованный вес (вертикальная ось) от номера последовательности (горизонтальная ось).
На графиках с ROC-кривыми по горизонтали откладывается 1-специфичность, а по вертикали - чувствительность профиля.
По таблицам 2х2 видно, что одинаковое число последовательностей нашлось этими профилями без ошибок.


На серии картинок слева даны изображения для 2-доменной структуры.
В графике весов находок pftools красным отмечены последовательности из "внешней группы", не принимавшие участия в составлении профиля (аналогично для второй серии графиков).
К сожалению, пришлось исключить эти последовательности из дальнейшего рассмотрения, как не оговоренные в задании, введенные по собственной инициативе последовательности, имеющие низкий вес. Тем не менее, введение "внешней группы было не безрезультатно: мы можем утверждать, что оба построенных профиля безошибочно находят последовательности, по которым они построены, но не ищут последовательностей, имеющих схожую архитектуру согласно pfam (я делал выравнивания и подтверждаю, что близкие архитектуры в тех последовательностях имеются).

По весам pftools видно, что для обоих построенных профилей существует порог, по которому можно безошибочно разделить последовательности двух групп (по которым строился профиль).
ROC-кривая для 2-доменной архитектуры показывает, что выбранный порог весом 30 (от 27 до 33) делает это, не совершая ошибок первого и второго рода.
ROC-кривая 4-доменной архитектуры показывает, что выбранный порог весом 60 (от 22 до 74) также разделяет группы, не совершая ошибок первого и второго рода.
Однако, еще раз скажем, что во внешней группе поиск не привел к адекватному разделению архитектур, поэтому, если бы нашей целью было создать работающий профиль для поиска данных архитектур, например, в SwissProt, нам предстояла бы его долгая отладка и подгонка.


Таким образом, удалось создать профиль для разделения анализируемых последовательностей.
Поиск по внешней группе показал, что профиль не универсален.
В задании не требовалось модифицировать его далее ввиду трудоемкости работы.






На страницу 4 семестра


© Aleshin Vasily