Учебный сайт Ксении Березиной

Отчет по EMBOSS

Заданиe 1. Программа getorf пакета EMBOSS

С помощью сервиса ENA получим файл последовательности D89965. Эта нуклеотидная последовательность мРНК, выделенная из ткани крысы Rattus norvegicus мужского пола. Ген, с которого транслирована эта мРНК, ассоциирован с серотониновым рецептором желудка. Кодирующая последовательность (CDS) белка RSS имеет координаты 163..435.

Открытая рамка считывания (Open Reading Frame, ORF) — потенциально способная кодировать белок последовательность, которая определяется в основном по старт- и/или стоп-кодону и имеет достаточную длину. Далее для получения открытых рамок считывания использовалась программа getorf пакета EMBOSS. Команда была такая:

getorf -minsize 90 -table 0 -find 1 embl:d89965

Программа дает на выход файл с рамками d89965.orf.

Третья из найденных рамок:

>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
		

Запись EMBL содержит ссылку на запись Swiss-Prot с ID P0A7B8. Это белок Escherichia coli. С помощью программы needle нужно сделать глобальное выравнивание последовательности Swiss-Prot и полученных открытых рамок: needle sw:P0A7B8 d89965.orf -aformat3 fasta. Белок E.coli в большей степени соответствует пятой рамке (см. рисунок 1).

Рис.1. Выравнивание белка P0A7B8 E.coli и пятой ORF из нуклеотидной последовательности R. norvegicus с ID D89965 в EMBL.

Нельзя не заметить, что запись с геном серой крысы, связанным с серотониновым рецептором, содержит ссылку на белок E.coli совсем другой функции. И транскрипт этого гена намного короче белка E.coli (91 и 176 АА). На самом деле, и выравнивание на рисунке 1 выглядит не слишком достоверно. Возможно, ученые просто ошиблись в ссылке.

Задание 2. Файлы-списки

Для начала нужно скачать все аннотированные записи с белками алкогольдигидрогеназ из Uniprot (fasta-файл с ними). Команда infoseq adh.fasta -only -usa > list1.txt выдаст файл-список универсальных кодов (USA) этих последовательностей. Из этого списка нужно получить меньший список, который содержит только белки этих организмов:

DROPI — Drosophila picticornis
SULSO — Sulfolobus solfataricus 
SCHPO — Schizosaccharomyces pombe  
DROAR — Drosophila arizonae
CAEEL — Caenorhabditis elegans 
DRODI — Drosophila differens 
METM5 — Methanococcus maripaludis 
		

Для этого была введена команда grep -f organisms.txt list1.txt > list2.txt. Полученный список. Теперь получим файл со всеми fasta-записями белков: seqret @list2.txt seqs.fasta. Итоговый файл.

Задание 3. Случайная модель для оценки достоверности выравнивания

В этом задании нужно оценить, насколько достоверно парное выравнивание двух алькогольдигидрогеназ из предыдущего задания. Возьмем белок мушки Drosophila arizonae и белок сахаромицета Schizosaccharomyces pombe. Теперь получим 100 случайных перемешиваний аминокислот белка из мушки с помощью shuffleseq -shuffle 100 droar.fasta. С помощью программы 'water' получаем парные локальные выравнивания последовательности сахаромицета с неперемешанной последовательностью мушки и с каждой из 100 перемешанных последовательностей. Для этого я поместила всю 101 последовательность в один файл. Получается 101 выравнивание, каждое имеет свой вес. Чтобы извлечь все весы в отдельный файл, используем команду: grep ' # Score: ' align_pr7.water | sed -e 's/# Score://' scorelist.txt. grep ищет строки с ' # Score: ', передает их по конвейеру программе sed, которая заменяет эти символы на пустое множество.

На рисунке 2 показана гистограмма распределения весов весов выравнивания.

Рис.2. Гистограмма распределения весов весов выравнивания. На горизонтальной оси обозначены значения весов, на вертикальной — количество выравниваний, соответствующих значениям.

Видно, что выравнивание с исходной (неперемешанной) последовательностью соответствует самому правому столбику (у него самый большой вес + встречается один раз). Его достоверность мы и пытаемся оценить.

На гистограмме столбик этого выравнивания отрывается от остальных рандомно полученных, которые, очевидно, не имеют смысла. Это, скорее всего, свидетельствует о том, что сделанное парное выравнивание алькогольдигидрогеназ не случайно и свидетельствует о гомологии.

Назад к третьему семестру