Программа getorf

С помощью entret я создал файл с записью d89965 банка EMBL. Запись содержит информацию о последовательности мРНК, кодирующей белок RSS серой крысы (Rattus norvegicus).

Программа getorf получает набор всех открытых рамок последовательности. Используя команду

getorf -minsize 90 -table 0 -find 1 embl:d89965

Я получил набор трансляций всех открытых рамок последовательности из записи d89965 EMBL минимальной длины 30. Одна из полученных рамок почти совпадает (на три нуклеотида короче) с приведенной в поле FT записи, координаты рамки (в исходной нуклеотидной последовательности): 163-435. Разница в 3 нуклеотида объясняется невключением стоп-кодона в выдачу getorf. Эта рамка была третьей в выдаче.

Файл с рамками можно скачать.

Данная запись EMBL ссылается на запись Swiss-Prot с идентификатором P0A7B8. С помощью entret я получил последовательность белка по этому идентификатору, которая оказалась последовательностью белка бактерии E.coli. Белок - HslV-субъединица АТФ-зависимой протеазы (иначе - белок теплового шока HslV). Его последовательности соответствует открытая рамка №5 (эта рамка полностью входит в последовательность, причем на всем протяжении выравнивание идеально). Скорее всего при секвенировании последовательностей крысы образец был загрязнен, и за последовательность крысы была принята последовательность бактерии.

Файлы-списки

С помощью программы entret я получил записи всех алкогольдегидрогеназ. Затем с помощью seqret извлек из них последовательности. С помощью infoseq получил идентификаторы последовательностей в файл-список. Из него я получил меньший, содержащий идентификаторы алкогольдегидрогеназ только нужных мне организмов. По этим идентификаторам я получил файл с последовательностями. Выполненные команды:

entret sw:adh*_* adh.entret
seqret adh.entret adh.fasta
infoseq -only -usa adh.entret >> adh_list
egrep "YEAST|STAA8|DROHY|STAES|DROER|SULTO|YARLI" adh_list >> adh_list2
seqret @adh_list2 adh_zlobin.fasta

Случайная модель оценки достоверности выравнивания

Для этого задания я выбрал алкогольдегидрогеназу Saccharomyces cerevisiae (strain ATCC 204508 / S288c) и Drosophila hydei. Я сделал 100 случайных перемешиваний последовательности белка дрожжей и выровнял их и исходный с последовательностью дрозофилы с помощью water. Я написал скрипт на Python, который получает из файла .water веса всех выравниваний в текстовый файл. Затем с помощью Excel я построил гистограмму распределения весов выравниваний с шагом 3 (см. рис.1). Выравнивание с исходной последовательностью попало в одну группу еще с 14 выравниваниями с весом, немного меньшим среднего и немного большим медианы. Понятно, что есть большое число выравниваний со случайными последовательностями, имеющих тот же вес, также 33 выравнивания имеют больший вес (значит, перемешивание сделало последовательность алкогольдегидрогеназы дрожжей "гомологичней" последовательности дрозофилы, чем исходная). Исходя из всего этого, можно судить, что эти две последовательности не являются гомологичными и близкими эволюционно.

Рисунок 1. Распределение весов выравниваний.

Файлы доступны для скачивания:
Скрипт
Выравнивания