Эволюционные домены. Занятие 12.
1. Разделить выравнивание представителей домена, построенное в практикуме 9, на две группы.
Можно использовать следующие варианты деления:
- разделить по доменной архитектуре белков
- разделить по таксономии организмов
- разделить на основании анализа дерева
Для обоснования деления выравнивания еще раз приведем
проект JalView с делением выравнивания по группам.
По изображению выравнивания наглядно видно деление последовательностей на группы (см. проект JV) по консервативности,
а также структуре гепов.
Также нельзя забывать, что последовательности Группы 2 (4_V_Group) относятся к четырехдоменной архитектуре,
а группы 1 (2_Group) - к 2-доменной.
Кроме того, граница оказалось проложенной и по таксономии (различия на уровне Типа на Vibrionales и остальные таксоны), и
с помошью филогенетических дереьев (см. практикум 10).
Следовательно, деление по группам, сделанное уже давно, остается, так как удовлетворяет не только какому-то одному, но
всем предложенным критериям.
2. Построить профиль, отличающий одну группу последовательностей от другой.
из файла выравнивания в JalView были получены два файла выравниваний для соответствующих групп, сохраненные в msf-формате:
seq_11_nrt_2.msf и seq_11_nrt_4.msf.
Вручную подгоним файл под читаемый формат.
Далее (как видно из команд ниже) избавимся от символов возврата строк и "взвесим" последовательности.
После этого получим профили my_2.prf и my_4.prf.
noreturn -infile seq_11_nrt_2.msf -outfile seq_11_nrt-2.msf
pfw seq_11_nrt-2.msf > seq_2_w.msf
noreturn -infile seq_11_nrt_4.msf -outfile seq_11_nrt-4.msf
pfw seq_11_nrt-4.msf > seq_4_w.msf
pfmake seq_2_w.msf /usr/share/pftools23/blosum62.cmp > my_2.prf
pfmake seq_4_w.msf /usr/share/pftools23/blosum62.cmp > my_4.prf
Файл с общим выравниванием последовательностей, в котором содержались также дополнительные "запасные" последовательности,
был лишен гепов, после чего по нему был осуществлен поиск с порогом 0.0. Речь идет о последовательностях, удовлетворивших
условиям выбора в практикуме 9, но отброшенных за ненадобностью большого числа последовательностей. Эти последовательности
не приняли участия в создании профиля, но могли бы помочь ответить на вопрос об использовании данного профиля
для последовательностей, по которым он не строился (своего рода внешняя группа).
pfsearch -C 0.0 -f my_2.prf seq_10_2.fasta| sort -nr > scores_2.txt
pfsearch -C 0.0 -f my_4.prf seq_10_2.fasta| sort -nr > scores_4.txt
После конвертации в xls-формат в файле были сохранены (.xlsx) визуализованные
данные о весах и специфичности/чувствительности поиска по профилю для 2-доменной структуры (первый лист)
и 4-доменной структуры (второй лист).
На графиках весов находок показан нормализованный вес (вертикальная ось) от номера последовательности (горизонтальная ось).
На графиках с ROC-кривыми по горизонтали откладывается 1-специфичность, а по вертикали - чувствительность профиля.
По таблицам 2х2 видно, что одинаковое число последовательностей нашлось этими профилями без ошибок.
На серии картинок слева даны изображения для 2-доменной структуры.
В графике весов находок pftools красным отмечены последовательности из "внешней группы",
не принимавшие участия в составлении профиля (аналогично для второй серии графиков).
К сожалению, пришлось исключить эти последовательности из дальнейшего рассмотрения, как не оговоренные в задании,
введенные по собственной инициативе последовательности, имеющие низкий вес. Тем не менее, введение "внешней группы
было не безрезультатно: мы можем утверждать, что оба построенных профиля безошибочно находят последовательности, по
которым они построены, но не ищут последовательностей, имеющих схожую архитектуру согласно pfam (я делал выравнивания
и подтверждаю, что близкие архитектуры в тех последовательностях имеются).
По весам pftools видно, что для обоих построенных профилей существует порог, по которому можно безошибочно
разделить последовательности двух групп (по которым строился профиль).
ROC-кривая для 2-доменной архитектуры показывает, что выбранный порог весом 30 (от 27 до 33)
делает это, не совершая ошибок первого и второго рода.
ROC-кривая 4-доменной архитектуры показывает, что выбранный порог весом 60 (от 22 до 74)
также разделяет группы, не совершая ошибок первого и второго рода.
Однако, еще раз скажем, что во внешней группе поиск не привел к адекватному разделению архитектур, поэтому, если бы нашей
целью было создать работающий профиль для поиска данных архитектур, например, в SwissProt, нам предстояла бы его долгая отладка и подгонка.
Таким образом, удалось создать профиль для разделения анализируемых последовательностей.
Поиск по внешней группе показал, что профиль не универсален.
В задании не требовалось модифицировать его далее ввиду трудоемкости работы.
На страницу 4 семестра
© Aleshin Vasily