Учебная страница курса биоинформатики,
год поступления 2011
Практикум 10
К следующему разу нужно завершить работу по описанию эволюции доменной архитектуры: задание практ.9 и задания 1-2 этого практикума.
Задания
1. Построить филогенетическое дерево по выравниванию представителей домена, полученному в практикуме 9.
- Сделайте имена последовательностей говорящими. А именно:
Закодируйтеь доменные архитектуры (например, 1 и 2 - если выбраны однодоменные и двудоменные белки). Расшифровка кодов на html странице обязательна!
- Закодируйте сравниваемые таксоны (например, E, A и B - если рассматриваются эукариоты, археи и бактерии)
- К именам всех последовательностей спереди добавьте коды архитектуры и таксона (например, так: 2_B_Q9XWZ6 вместо Q9XWZ6_CAEEL/290-607)
- Постройте филогенетическое дерево (как учил Спирин).
- Подумайте над тем, какую программу использовать. Использовать ли гипотезу и молекулярных часах или нет? Строить ли укорененное дерево или неукорененное? Если неукорененное, то укоренять ли его и если да, то как?
- Используйте известные вам методы подтверждения достоверности ветвей дерева
- Создайте рисунок дерева для html страницы с использованием методов выделения (раскраски и т.п.) клад для наглядной демонстрации результата
- Также на html странице поставьте ссылку на файл со скобочной структурой
- Обоснуйте выбор метода реконструкции филогении
- Выскажите и обоснуйте гипотезу об эволюции архитектур с выбранным доменом.
Можно использовать любые программы визуализации дерева, представляющие достаточные средства для визуализации. Одна из таких программ - ITOL
2. Оформите результаты практ. 9-10 на сайте и вынесите свое заключение о возможном пути эволюции доменной архитектуры, включающей ваш домен
.
Проверка 7 мая:
3. Построить профиль домена по выравниванию и найти всех представителей в банке Uniprot/SwissProt.
- Подготовьте выравнивание в формате MSF.
- Уберите символы возврата строки. Можно использовать программу noreturn пакета EMBOSS. (Пакет pftools требует юниксовского формата текстовых файлов.)
- Добавьте веса последовательностей в выравнивание
pfw input > output
прим. Здесь и далее в командах input и output означают название файлов.
- Создайте профиль
pfmake input /usr/share/pftools23/blosum62.cmp > output
- Этап нормализации профиля пропустим для экономии времени. Нормализация позволяет выбрать универсальный порог веса находки.
Найдите в SwissProt всех представителей домена, используя поиск по профилю.
Используйте SwissProt в *.fasta формате /home/export/samba/public/y10/Term_4/Block_3/task11/swissprot.fasta
pfsearch –C8.0 –f input.pro input.fasta > result
Порог (-С1.0) установлен очень низким, возможно много ложных находок.
Сравните находки с наличием данного домена в них по аннотациям SwissProt
Создайте таблицу Excel с находками. Отметьте в ней последовательности, в которых имеется домен Pfam.
Постройте гистограмму весов находок.
.....
- Напишите заключение. Удалось ли создать профили, позволяющие отличить заданные группы последовательностей?
6. Поиск по последовательностям
pfsearch –C1.0 –f input.pro input.fasta > result
Здесь -f показывает, что банк имеет формат fasta, а -C1.0 (именно так, без пробела и с обязательной десятичной точкой!) – что мы просим выдать все находки с весом более 1 (этот порог заведомо заниженный; если находок очень много, имеет смысл его повысить).
7. Постройте в Excel графики зависимости числа ошибок первого (False Negatives) и второго (False Positives) от порогового значения score. Выберете пороговое значение, которое вы рекомендуете использовать для поиска последовательностей с заданной доменной архитектурой.
Для каждого профиля приведите число верных находок (True Positives), верно пропущенных последовательностей (True Negativies) и число ошибок первого и второго рода при выбранном пороговом значении score.
8. Осуществите поиск при помощи полученных профилей по банку SwissProt.
Ваша задача - найти в банке последовательности соответствующие выбранным доменным архитектурам (или кладам филогенетического дерева). Используйте SwissProt в *.fasta формате /home/export/samba/public/y10/Term_4/Block_3/task11/swissprot.fasta
Если поиск даст немного (например, 30) последовательностей - установите, какова их доменная архитектура. Если результатов будет больше, выберите случайно 20 последовательностей. К каким доменным архитектурам они принадлежат? Сколько найденных последовательностей принадлежат к той архитектуре, по которой строился профиль? Сколько - ко второй архитектуре? Есть ли среди находок последовательности, принадлежащие к архитектурам, не представленным в первоначальном выравнивании? К каким и сколько?
9. Напишите заключение. Удалось ли создать профили, позволяющие отличить заданные группы последовательностей?