EMBOSS
Главная

Программа getorf пакета EMBOSS

Вначале был получен файл с записью D89965 банка EMBL.

entret embl:D89965

Как указано в записи, в ней приведена информация о гене серой крысы. Он кодирует белок, отвечающий за передачу сигнала с помощью серотониновых рецепторов в крысином желудке.

getorf - программа для поиска открытых рамок считывания в последовательности нуклеотидов. Опция -minsize задает минимальное число нуклеотидов в рамке. Чтобы искать только те рамки, которые начинаются со старт-кодона и заканчиваются стоп-кодоном, используется опция -find 1.

getorf d89965.entret -find 1 -minsize 90

Полученный файл: d89965.orf

Было найдено 5 открытых рамок, 2 из них - на комплементарной цепи. Одна из них [163..432] совпадает с той, что указана в CDS [163..435], видимо, с учетом последнего триплета, кодирующего стоп-кодон.

В записи EMBL есть ссылка на запись о белке в Swiss-Prot, AC P0A7B8. Файл: hslv_ecoli.entret. Это последовательность белка протеазы E.coli. Она частично совпадает с рамкой считывания [294..1]. Скорее всего, при получении ДНК из желудка крысы в образец попала ДНК бактерии E.coli, которая в норме обитает в кишечнике. И в результате именно бактериальная ДНК была секвенирована.

Файлы и списки

Для того, чтобы скачать все доступные в Swiss-Prot записи, содержащие информацию об алкогольдегидрогеназах, была использована следующая команда:

seqret sw:adh*_* adh.fasta

Получился файл: adh.fasta.

Командой:

infoseq adh.fasta -only -usa >> adh.txt

был получен список универсальных адресов всех белковых последовательностей дегидрогеназ из файла adh.fasta.

Командой:

grep -E 'HORSE|HUMAN|ARATH|DROER|YARLI|CLOAB|CERCA' 'adh.txt' > my_adh.txt

был получен сокращённый список, который содержит USA белков дегидрогеназ следующих организмов: HORSE, HUMAN, ARATH, DROER, YARLI, CLOAB, CERCA. Файл с USA можно скачать по следующей ссылке: my_adh.txt.

Для получения последовательностей дегидрогеназ перечисленных выше организмов в формате FASTA, была использована следующая команда:

seqret @my_adh.txt my_adh.fasta

Конечный файл с последовательностями можно скачать по ссылке: my_adh.fasta.

Случайная модель для оценки достоверности выравнивания

Для оценки достоверности выравнивания были взяты последовательности алкогольдегидрогеназ организмов Arabidopsis thaliana и человека.

С помощью программы shuffleseq было создано 100 случайных последовательностей той же длины и стем же набором букв, что и в исходной последовательности

shuffleseq -shuffle 100 arath.fasta arath_shuffled.fasta

Далее программой water было получено 101 парное выравнивание алкогольдегидрогеназ человека и Arabidopsis thaliana и перемешанных последовательностей

Для получения списка весов выравниваний я использовал команду:

grep Score alignment|sed 's/^[# Score: ]*//' > score

На основе полученных данных была построена гистограмма распределения полученных весов, представленая на рис. 1. Таблица Excel: pr7.xlsx

Рис. 1. Гистограмма распределения весов выравниваний белковых последовательностей

Вес выравнивания с исходной последовательностью равен 790,5. Он оказался в крайнем правом месте гистограммы. Его значение более, чем в 9 раз превышает предыдущее. Значит, полученное выравнивание сильно отличается от случайного, то есть можно утверждать о гомологии последовательностей.

Обо мне
Ссылки


Valid HTML 4.01 Transitional