Сначала запускаем поиск гомологов своего белка по UniProt. Если выдача слишком большая и не позволяет найти далекие гомологи, придется повторить поиск, но уже по SwissProt. Подбираем белки-кандидаты (можно использовать выдаваемые BLAST'ом % совпадений; они в большинстве случаев будут отличаться от тех, что получатся при глобальных выравниваниях (кстати, понятно, почему?), но это не столь важно для данного задания). В EBI щелчок по имени белка открывает посвященную ему страничку, с которой есть ссылка "SRS" (вторая справа в ряду "Viewers"). В SRS нажимаем кнопку Link. Среди банков выбираем "EMBL (Coding Sequences)" это специально созданный производный банк последовательностей CDS из всевозможных записей EMBL. Лучше сразу отметить в Display Options вариант "FastaSeqs", но можно это сделать и потом, найдя все гены и отметив один из них.
Не перепутайте, к какому белку какой ген относится!
Поэтому создайте табличку в Excel, в которой против каждого идентификатора
белка укажите идентификатор гена.
Для подсчета числа разных нуклеотидных замен создайте таблицу Excel. Прямые
замены считаем равными обратным (t→c = c→t), т.к. мы не знаем, кто
от кого произошел на самом деле.
Импортируйте полученные файлы с % идентичности в Excel. В процессе
импорта можно (и правильно) сделать так,
чтобы каждая пара последовательностей получила одно имя, например
Постройте график, по одной оси которого отложены значения % идентичности белков, а по другой % идентичности генов. Рекомендуем использовать точечную диаграмму с маркерами, соединенными сглаженными кривыми.
Полезно также наложить на график линию, соединяющую точки (5;25) и (100;100), посмотрите, как это сделано в образце haem.xls.