Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2010

Результат должен появиться на вашем сайте к следующему разу

1. Построить филогенетическое дерево выборки последовательностей домена, составленной ранее

2. Разделить выравнивание на две группы

3. Построить профиль, отличающий одну группу последовательностей от другой.

Исходные данные: выравнивание последовательностей домена, разделенное на две группы (результат предыдущего задания)

1. Подготовьте выравнивание в формате MSF.

2. Уберите символы возврата строки.

Пакет pftools требует юниксовского формата текстовых файлов. Поэтому, файлы надо подготовить командой

cat input | tr –d \r > output

прим. Здесь и далее в командах input и output означают название файлов.

Другой вариант - программа noreturn пакета EMBOSS (ААл)

3. Добавьте веса последовательностей в выравнивание

pfw input > output

4. Создайте профиль

pfmake input /usr/share/pftools23/blosum62.cmp > output

5. Подготовьте файл с последовательностями из обеих групп. Файл должен быть в формате *.fasta. Это файл, по которому мы осуществляем поиск.

6. Поиск по последовательностям

pfsearch –C1.0 –f input.pro input.fasta > result

Здесь -f показывает, что банк имеет формат fasta, а -C1.0 (именно так, без пробела и с обязательной десятичной точкой!) – что мы просим выдать все находки с весом более 1 (этот порог заведомо заниженный; если находок очень много, имеет смысл его повысить).

7. Постройте в Excel графики зависимости числа ошибок первого (False Negatives) и второго (False Positives) от порогового значения score. Выберете пороговое значение, которое вы рекомендуете использовать для поиска последовательностей с заданной доменной архитектурой.

Для каждого профиля приведите число верных находок (True Positives), верно пропущенных последовательностей (True Negativies) и число ошибок первого и второго рода при выбранном пороговом значении score.

8. Осуществите поиск при помощи полученных профилей по банку SwissProt.

Ваша задача - найти в банке последовательности соответствующие выбранным доменным архитектурам (или кладам филогенетического дерева). Используйте SwissProt в *.fasta формате /home/export/samba/public/y10/Term_4/Block_3/task11/swissprot.fasta

Если поиск даст немного (например, 30) последовательностей - установите, какова их доменная архитектура. Если результатов будет больше, выберите случайно 20 последовательностей. К каким доменным архитектурам они принадлежат? Сколько найденных последовательностей принадлежат к той архитектуре, по которой строился профиль? Сколько - ко второй архитектуре? Есть ли среди находок последовательности, принадлежащие к архитектурам, не представленным в первоначальном выравнивании? К каким и сколько?

9. Напишите заключение. Удалось ли создать профили, позволяющие отличить заданные группы последовательностей?