Главная
Семестр 1
Семестр 2
Семестр 3
Семестр 4
О себе
Ссылки

EMBOSS

Первым делом нужно было получить файла с записью D89965 банка EMBL. Для этого я воспользовалась сервером kodomo, введя следующий запрос (c автоматическим параметром выхода):
entret embl:d89965
В этой записи содержится полная последовательность и аннотации гена, кодирующего мРНК Серой крысы (Rattus norvegicus). Соответствующий белок участвует в трансдукции RT-сигнала желудке крысы.

Далее нужно было разобраться в программе getorf и вывести в файл все возможные открытые рамки считывания, удовлетворяющие трем условиям: не менее 30 нуклеотидов, от старт-кодона до стоп-кодона и должны быть определены при использовании стандартного генетического кода. Строка запроса выглядела так (с автоматическим параметром выхода; 90, а не 93, так как команда сама не учитывает стоп-кодон):
getorf embl:d89965 -find 1 -minsize 90
В результате 5 рамок, из которых 2 на комплементарной цепи. Среди них есть и та, которая указана в CDS, только в случае CDS у нее границы 163..435 (до начала стоп-кодона), а в файле с рамками - 163..432 (до начала последней аминокислоты).

Затем я с помощью все той же программы entret получила файл записью из банка Swiss-Prot, на которую была ссылка в записи из EMBL. Для этого я ввела следующий запрос:
entret sw:p0a7b8
Полученная последовательность содержит в себе последовательность из 5-й рамки считывания (из полученных ранее), что видно здесь. Строго говоря, я не знаю, как эта рамка считывания попала в файл, так как заканчивается она там, где заканчивается цепь ([294 - 1]), а не на стоп-кодоне. Зато это хорошо объясняет продолжение новополученной последовательности в ту сторону за нашу рамку считывания. Что касается участка перед началом - тоже ничего удивительного. Настоящий старт - кодон тоже не попал в последовательность, с которой мы работали изначально, но попал другой метионин из середины, который и был принят за старт-кодон.

Далее надо было скачать в файл все доступные в Swiss-Prot последовательности алкогольдегидрогеназ. Для этого я использовала команду seqret (fasta-формат устанавливается автоматически). Строка запроса:
seqret sw:adh*_* adh.fasta
C помощью запроса:
infoseq sw:adh*_* -only -usa > sw-usa
я получила еще один файл, который содержит только список универсальных адресов USA в Swiss-Prot.

Затем мне надо было создать список только из тех кодов, которые соответствуют выданным мне организмам. Для этого я воспользовалась следующей командой:
grep -E 'ENTHI|DROFL|METVS|SCHPO|ZEALU|CERRO|PERMA' 'sw-usa' > list
А потом на основе этого списка получить файл в fasta-формате с последовательносями этих алкогольдегидрогеназ. Строка запроса:
seqret @list list.fasta

Для дальнейших экспериментов из предложенных организмов я выбрала Zea luxurians (вид кукурузы) и Drosophila flavomontana (дрозофила), так как это достаточно далекие виды. Перемешивала я последовательность кукурузы, создав специально отдельный файл с ее последовательностью под названием "ZEALU", вот результат . Строка запроса:
shuffleseq -shuffle 100 ZEALU adh1_zealu.fasta
Затем собственно выравнивание. Я сделала сначала отдельно 100 случайных, а потом одно неслучайное, чтобы было виднее, что происходит. "DROFL" - файл с последовательностью дрозофилы. Мои запросы (штрафы за гепы стандартные):
water DROFL adh1_zealu.fasta test
water DROFL ZEALU test2
Чтобы собрать все счета в новом файле "score", я выполнила следующие запросы:
grep Score test|sed 's/# Score //' > score
echo '60.0' >> score
Последним ходом я прибавила к списку счет "настоящего" выравнивания.

Для наглядности результаты представлены на рис. 1. По оси Y счета выравниваний. Для удобства все счета отсортированы по возрастанию. Красным выделено "настоящее" выравнивание. Можно видеть, что против ожиданий "настоящее" выравнивание имеет счет меньше некоторых случайных. Это связано с тем, что я взяла очень далекие организмы, поэтому их алкогольдегидрогеназы выравниваются довольно плохо. Тем не менее "настоящее" все-таки одно из лучших, так как какая-никакая гомология все же присутствует.

Рис 1. Сравнение выравниваний.