Подсказки к заданию 10.

  1. Подбор гомологов удобно проводить с помощью BLAST-сервера EBI, т.к., во-первых, там возможен поиск по UniProt (а не только по SwissProt), что в данном случае безусловно лучше, а, во-вторых, тут же можно посмотреть глобальное выравнивание белка-кандидата с Вашим белком (кнопка <DbClustal>). При поиске столь близких последовательностей имеет смысл уменьшить пороговое значение E-value (EXP.THR.), будет и быстрее и легче для сервера.

    Сначала запускаем поиск гомологов своего белка по UniProt. Если выдача слишком большая и не позволяет найти далекие гомологи, придется повторить поиск, но уже по SwissProt. Подбираем белки-кандидаты (можно использовать выдаваемые BLAST'ом % совпадений; они в большинстве случаев будут отличаться от тех, что получатся при глобальных выравниваниях (кстати, понятно, почему?), но это не столь важно для данного задания). В EBI щелчок по имени белка открывает посвященную ему страничку, с которой есть ссылка "SRS" (вторая справа в ряду "Viewers"). В SRS нажимаем кнопку Link. Среди банков выбираем "EMBL (Coding Sequences)" — это специально созданный производный банк последовательностей CDS из всевозможных записей EMBL. Лучше сразу отметить в Display Options вариант "FastaSeqs", но можно это сделать и потом, найдя все гены и отметив один из них.

    Не перепутайте, к какому белку какой ген относится! Поэтому создайте табличку в Excel, в которой против каждого идентификатора белка укажите идентификатор гена.
     

  2. Программа needle может создавать выходные файлы в формате msf или fasta, которые можно затем импортировать в Genedoc для удобства определения позиций (опция -aformat3, см. needle -help -verbose).

    Для подсчета числа разных нуклеотидных замен создайте таблицу Excel. Прямые замены считаем равными обратным (t→c = c→t), т.к. мы не знаем, кто от кого произошел на самом деле.
     

  3. Как построить график?

    Импортируйте полученные файлы с % идентичности в Excel. В процессе импорта можно (и правильно) сделать так, чтобы каждая пара последовательностей получила одно имя, например "р1 р2". Отсортируйте таблицы так, чтобы порядок пар белков соответствовал порядку пар генов, сведите все в одну таблицу. Отсортируйте все данные по % идентичности белков, подпишите данные.

    Постройте график, по одной оси которого отложены значения % идентичности белков, а по другой — % идентичности генов. Рекомендуем использовать точечную диаграмму с маркерами, соединенными сглаженными кривыми.

    Полезно также наложить на график линию, соединяющую точки (5;25) и (100;100), посмотрите, как это сделано в образце haem.xls.