Задания 1
- Установить на свой компьютер следующие программы:
Инструкции по установке здесь, по использованию здесь.
Желательно: PHYLIP, Jalview, Jmol; если у вас компьютер под Windows, то CygWin и MEGA.
Найти в Swiss-Prot (то есть среди записей Uniprot, помеченных как Reviewed) по белку с известной вам функцией из человека, дрожжей и E. coli. Для каждого сохранить на своём компьютере файл с полной записью и файл с последовательностью в формате fasta. Определить для каждого идентификатор какой-нибудь записи EMBL с геном этого белка. Сохранить на своём компьютере файл с этой записью EMBL и файл в формате fasta с последовательностью гена белка.
Файлы с записями Swiss-Prot должны иметь расширение "sw", файлы с записями EMBL – расширение "embl", файлы в fasta-формате – расширение "fasta". Файлы присылайте мне в виде одного архива.
Задания 2
Установить на свой компьютер пакет BLAST+ ftp://ftp.ncbi.nih.gov/blast/executables/blast+/2.2.29
- Завести протокол (в одном из стандартных форматов: .txt, .doc, .rtf, .odt и т.п.), в который заносить краткую информацию о последующих действиях и их результатах.
Получить для каждого из белков первого задания список записей Swiss-Prot с той же мнемоникой функции, что у исходного белка (например, если белок имел ID "AAA_HUMAN", то список всех белков, чьё ID начинается с "AAA"), из таксона: Mammalia для белка человека, Fungi для белка дрожжей, Gammaproteobacteria для белка E. coli.
Если ни одного такого белка, кроме исходного, нет, записать это в протоколе и получить список белков из Swiss-Prot ("Reviewed") с той же или примерно той же функцией (по полю DE).
- Сохранить в виде файла с расширением "sw" полные записи одного из белков каждого списка (то есть по одному предполагаемому гомологу для каждого из исходных трёх белков). Занести в протокол описание того, как проаннотирована в каждой из записей функция белка (по полям DE и CC), в чём сходство и различие в аннотации в каждой паре белков.
- Выполнить программой needle глобальное выранивание каждой пары белков. Результат сохранить в файл с расширением needle (желательно "aaa.needle", если белки имеют мнемонику функции "aaa"). Выполнить локальное выравнивание программой water, результат сохранить в файл с расширением water. Занести в протокол характеристики выравниваний и вывод: свидетельствует ли сходство последовательностей о гомологии белков, если да, то по всей ли длине белки гомологичны.
- Для пары с наименьшим процентом идентичности выполнить глобальное и локальное выравнивание одного из белков с перемешанной последовательностью другого, сравнить результаты с выравниваниями натуральных последовательностей, сделать выводы.
- Для пары с наибольшим процентом идентичности выполнить глобальное выравнивание кодирующих нуклеотидных последовательностей белков. Если считать выравнивание аминокислотных остатков полностью правильным, то сколько (примерно) процентов нуклеотидов выровнялось правильно? (Для умеющих программировать дополнительное задание: написать скрипт, который вычисляет этот процент точно).
Все полученные файлы и протокол нужно прислать в виде одного архива не позднее 3 апреля 2014.
Задания 3
Определите, сколько сходных последовательностей c E-value < 0,01 находит белковый BLAST для каждого из трёх ваших белков а) в банке Swiss-Prot; б) в банке refseq_protein.
В протокол запишите результаты (количества находок) и ответы на следующие вопросы. Есть ли среди находок в Swiss-Prot белки с иной, судя по краткому описанию, функцией? Если да, то все ли они находятся в списке ниже, чем все белки с той же функцией? Есть ли среди находок тот белок, чью последовательность вы выравнивали с последовательностью своего белка в предыдущем задании? Если нет, то постарайтесь объяснить, почему. Если да. то сравните выравнивания, выданные water и BLAST: есть ли между ними различия?
Указания. Запускайте BLAST на сайте NCBI, далее по ссылке "protein blast". Выберите нужный банк в меню "Database". После этого откройте "Algorithm parameters" и установите порог на E-value 0.01 и максимальное количество выдаваемых последовательностей (побольше, чтобы выяснить истинное количество сходных последовательнсотей в банке).
Чтобы узнать порядок находки в списке, надо навести курсор мыши на гиперссылку в крайнем правом столбце (она ведёт на запись с описанием последовательности), в тексте гиперссылки можно найти фрагмент вида "blast_rank=18" – это значит, что вы имеете дело с 18-ой по счёту находкой. Общее число находок – это порядковый номер последней находки.
Дополнительные задания
Оцените другие веб-интерфейсы к программе BLASTP: на серверах Uniprot (http://www.uniprot.org/ , далее вкладка BLAST ) и EBI (http://www.ebi.ac.uk/Tools/sss/ncbiblast/ ). Обращайте внимание на списки доступных банков, параметры, которые можно менять, как представлен результат и какие возможности предоставляет страница с результатом.
Протоколы присылайте к 10 апреля.
Задания 4
Подберите (из выдач BLASTP) по 10–15 гомологов к каждому из выбранных вами белков. Вместе с вашим белком его гомологи составят наборы родственных белков. Когда будете подбирать гомологи, постарайтесь, чтобы они были на разном эволюционном расстоянии от исходного белка, тогда их выравнивание будет более содержательным. Другой хороший вариант: гомологи из разных таксонов.
Далее ваша задача – для каждого набора построить множественное выравнивание последовательностей и начать анализировать его с помощью Jalview.
Указания
- Запустите Jalview, закройте все "демонстрационные" окошки.
- Закачайте последовательности в Jalview. Это можно сделать двумя способами:
Сохраните последовательности белков в файл в fasta-формате, пользуясь сервисами Uniprot. После этого откройте этот файл программой Jalview (File → Input alignment → From file).
Альтернативный способ: в Jalview: File → Fetch sequences, в меню "Select database" выбираете Uniprot, в окошко вносите AC последовательностей через точку с запятой, нажимаете OK и ждёте некоторое время.
Постройте выравнивание: Web service → Alignment → Muscle (или Mafft, или Probcons, или Tcoffee) with defaults.
- Отредактируйте названия последовательностей, убрав повторяющуюся информацию. Чтобы редактировать названия, нужно щёлкнуть правой кнопкой мыши по названию, в открывшемся меню выбрать это самое название и далее "Edit name/description". Описание лучше не трогать, а в названии имеет смысл оставить только первый AC и ID (через вертикальную черту). Или даже только ID, а AC перенести в описание. Немного "поиграв" курсором мыши, можно научиться менять величину места, отведённого под названия (имеет смысл его минимизировать, чтобы удобнее было смотреть само выравнивание).
В меню Colour выберите наиболее информативную, по вашему мнению, раскраску (а основная информация, которую мы получаем из выравнивания – это возможности замены остатков интересующего нас белка в его гомологах; раскраска должна облегчать восприятие этой информации).
Посмотрите в поле FT аннотации вашего белка. Если там указаны какие-либо функции отдельных остатков, найдите их в выравнивании и обратите внимание на их консервативность. В Jalview над выравниванием по умолчанию приведены номера колонок (которые, конечно, как правило не совпадают с номерами остатков в отдельных белках). Чтобы узнать номер конкретного остатка в конкретном белке, наведите курсор мыши на букву – информация появится внизу окна выравнивания.
- Опишите в протоколе всё интересное, что вам удалось узнать из анализа выравнивния, а также технические трудности и недоумения, с которыми пришлось столкнуться.
- Сохраните проект Jalview (файл с расширением jar).
Присылайте jar-файлы и протоколы (в этот раз давайте без сроков, но чем раньше, тем лучше – у меня будет больше возможностей внимательно посмотреть )