Программа getorf пакета EMBOSS
Из банка embl была взята запись о последовательности D89965 с помощью команды entret. Затем по последовательности были определены открытые рамки считывания удовлетворяющие параметрам:
- Длина не менее 30 ак.
- Начинаются со старт-кодона и заканчиваются стоп-кодоном.
Выяснилось, что третья рамка считывания полностью соответствует последовательности белка, закодированной последовательностью D89965.
Теперь достали из банка SwissProt, последовательность на которую ссылается EMBL, с идентификатором P0A7B8. Нетрудно заметить, что из найденных рамок считывания уже пятая полностью соответствует последовательности из SwissProt. В чем же дело? Видимо одни исследователи хотели выделить мРНК, кодирующую белок из желудка крысы, а на самом деле выделели похожую мРНК кишечной палочки и отсиквенировали, поэтому данные из разных банков дают нам разные рамки считывания, цепь, на которой есть ген.
Файлы-списки
С помощью команды seqret sw:adh*_* adh.fasta , были сохранены все последовательности алкогольдегидрогеназ
из банка SwissProt.
C помощью команды infoseq adh.fasta -only -usa > adh_usa.txt был создан файл-список с USA-идентификаторами всех
алкогольдегидрогеназ. В файле-списке grep.txt находятся идентификаторы тех организмов, дегидрогеназы которых
мне нужно отобрать
C помощью команды grep -f grep.txt adh_usa.txt > usagrep.txt были отобраны нужные adh.
C помощью команды seqret @usagrep.txt myadh.fasta были получены последовательности нужных adh.
Файл можно скачать здесь
EnsEMBL
Белок кератина 1 типа K1C9_HUMAN, для анализа был взят последний экзон с 3338 по 3815 нуклеотид гена KRT9. На портале EnsEMBL с помощью сервера "BLAST/BLAT" был найден этот экзон. Он находится в 17 хромосоме. С этой последовательностью выравниваются более мелкие участки генома из разных хромосом с 100% идентичностью, но длиной в 20 пар нуклеотидов. Можно сортировать находки по e-value, % ID, длине выравнивания и др. На странице результатов в таблице указаны такие параметры выравнивания как начало/конец выравнивания относительно запроса, относительно всей хромосомы, какая хромосома, очки выравнивания, e-value, длина. Не совсем ясно что означает поле Ori. Перейдя по ссылке "Contig view", можно увидеть подробнее участок хромосомы, на котором расположен экзон данного гена.