Учебная страница курса биоинформатики,
год поступления 2010
Результат должен появиться на вашем сайте к следующему разу
- Отметка "во время" будет проставлена, если в среду на сайте будет обнаружено филогенетическое дерево и ссылка на профиль.
1. Построить филогенетическое дерево выборки последовательностей домена, составленной ранее
- Сделайте имена последовательностей говорящими. А именно:
Закодируйтеь доменные архитектуры (например, 1 и 2 - если выбраны однодоменные и двудоменные белки). Расшифровка кодов на html странице обязательна!
- Закодируйте сравниваемые таксоны (например, E, A и B - если рассматриваются эукариоты, археи и бактерии)
- К именам всех последовательностей спереди добавьте коды архитектуры и таксона (например, так: 2_B_Q9XWZ6 вместо Q9XWZ6_CAEEL/290-607)
- Постройте филогенетическое дерево (как учили Спирин и Кривозубов).
- Подумайте над тем, какую программу использовать. Использовать ли гипотезу и молекулярных часах или нет? Строить ли укорененное дерево или неукорененное? Если неукорененное, то укоренять ли его и если да, то как?
- Используйте известные вам методы подтверждения достоверности ветвей дерева
- Создайте рисунок дерева для html страницы с использованием методов выделения (раскраски и т.п.) клад для наглядной демонстрации результата
- Также на html странице поставьте ссылку на файл со скобочной структурой
- Обоснуйте выбор метода реконструкции филогении
- Выскажите и обоснуйте гипотезу об эволюции архитектур с выбранным доменом.
2. Разделить выравнивание на две группы
- В зависимости от результатов предыдущего задания можно использовать следующие варианты деления:
- разделить по доменной архитектуре белков (если вы показали, что доменные архитектуры образуют клады на дереве)
- разделить по таксономии организмов (если дерево соответствует таксономии, а доменные архитектуры "случайны")
- разделить на основании анализа дерева (если дерево не соответствует ни доменным архитектурам, ни таксономии организмов, что странно и нуждается в объяснении)
3. Построить профиль, отличающий одну группу последовательностей от другой.
Исходные данные: выравнивание последовательностей домена, разделенное на две группы (результат предыдущего задания)
1. Подготовьте выравнивание в формате MSF.
2. Уберите символы возврата строки.
Пакет pftools требует юниксовского формата текстовых файлов. Поэтому, файлы надо подготовить командой
cat input | tr –d \r > output
прим. Здесь и далее в командах input и output означают название файлов.
Другой вариант - программа noreturn пакета EMBOSS (ААл)
3. Добавьте веса последовательностей в выравнивание
pfw input > output
4. Создайте профиль
pfmake input /usr/share/pftools23/blosum62.cmp > output
5. Подготовьте файл с последовательностями из обеих групп. Файл должен быть в формате *.fasta. Это файл, по которому мы осуществляем поиск.
6. Поиск по последовательностям
pfsearch –C1.0 –f input.pro input.fasta > result
Здесь -f показывает, что банк имеет формат fasta, а -C1.0 (именно так, без пробела и с обязательной десятичной точкой!) – что мы просим выдать все находки с весом более 1 (этот порог заведомо заниженный; если находок очень много, имеет смысл его повысить).
7. Постройте в Excel графики зависимости числа ошибок первого (False Negatives) и второго (False Positives) от порогового значения score. Выберете пороговое значение, которое вы рекомендуете использовать для поиска последовательностей с заданной доменной архитектурой.
Для каждого профиля приведите число верных находок (True Positives), верно пропущенных последовательностей (True Negativies) и число ошибок первого и второго рода при выбранном пороговом значении score.
8. Осуществите поиск при помощи полученных профилей по банку SwissProt.
Ваша задача - найти в банке последовательности соответствующие выбранным доменным архитектурам (или кладам филогенетического дерева). Используйте SwissProt в *.fasta формате /home/export/samba/public/y10/Term_4/Block_3/task11/swissprot.fasta
Если поиск даст немного (например, 30) последовательностей - установите, какова их доменная архитектура. Если результатов будет больше, выберите случайно 20 последовательностей. К каким доменным архитектурам они принадлежат? Сколько найденных последовательностей принадлежат к той архитектуре, по которой строился профиль? Сколько - ко второй архитектуре? Есть ли среди находок последовательности, принадлежащие к архитектурам, не представленным в первоначальном выравнивании? К каким и сколько?
9. Напишите заключение. Удалось ли создать профили, позволяющие отличить заданные группы последовательностей?