Программа getorf пакета EMBOSS
Была получена полная запись D89965 из банка EMBL и записана в файл-entret - мРНК крысы Rattus norvegicus. Далее c помощью команды getorf d89965.entret -minsize 30 -find 1 -table 0
на kodomo-машине получен набор трансляций всех открытых рамок данной последовательности, удовлетворяющих условиям:
- определены прииспользовании стандартного кода
- длина не менее 30 аминокислотных остатков
- начинаются со старт-кодона и заканчиваются стоп-кодоном
Полученные трансляции записаны в файл. Из найденных открытых рамок пятая полностью соответсвует приведённой в поле FT кодирующей последовательности (CDS) в записи D89965.
Примечательно, что эта запись ссылается на другую запись в Swiss-Prot, которая также была записана в файл-fasta. Это субъединица АТФ-зависимой протеазы E. coli. Она частично выравнивается (зато идеально) с одной из рамок считывания мРНК крысы, а именно с 9-ой, причём на обратной цепи. Выравнивание (верхняя строка соответсовует ORF, нижняя - белку E. coli):
1 ---------------------------MKGNVKKVRRLYNDKVIAGFAGG 23 ||||||||||||||||||||||| 1 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGG 50 24 TADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVAD 73 |||||||||||||||||||||||||||||||||||||||||||||||||| 51 TADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVAD 100 74 ETASLIITGNGDVVQPENDLIAIGS------------------------- 98 ||||||||||||||||||||||||| 101 ETASLIITGNGDVVQPENDLIAIGSGGPYAQAAARALLENTELSAREIAE 150 98 -------------------------- 98 151 KALDIAGDICIYTNHFHTIEELSYKA 176
Наблюдается довольно необычная картина: одной мРНК крысы соответсвует её (предполагаемый) белок и белок кишечной палочки. Однако стоит заметить, что для изучения была взята ткань желудка крысы. И не исключено, что при секвенировании образца в него попала НК кишечной палочки. А авторы, наверняка, хотели предсказать белок в последовательности, опираясь на её физические свойства, и именно этот фрагмент НК E.coli оказался подходящим. Возможно именно поэтому авторы неправильно аннотировали ген.
Файлы-списки
В файл adh.fasta c помощью команды seqret sw:adh*_* -outseq adh.fasta
были записаны все доступные в Swiss-Prot последовательности алкогольдегидрогеназ.
В файле txt выписаны только их идентификаторы, осуществлено командой infoseq sw:adh*_* -only -usa -outfile adh.txt
.
Из этого файла-списка был получен другой с адресами только определённых организмов, команда имеет вид: grep adh.txt -f list.txt > mylist.txt
На основе нового файла-списка били получены последовательности дегидрогеназ выбранных организмов с помощью команды seqret @mylist.txt myseq.fasta
и записаны в myseq.fasta.
EnsEMBL
Был выбран белок PanK1_human, и получена аминокислотная последовательность. Далее предпринята попытка найти последовательность гена этого белка, используя сервис "BLAST/BLAT". Но вместо выдачи имеем странную страницу:
Тогда с главной страницы EnsEMBL с помощью поиска искался ген по имене белка. Оказалось, что их названия совпадают. Тогда со страницы гена была открыта страница Region in detail. С этой страницы можно узнать
- расположение гена на хромосоме: хромосома 10, участок после q23.1 обведён красной рамочкой; видимо, это и есть PanK1
- на нижней схеме указаны различные варианты сплайсинга (наборы CCDs)
- особенности гена указаны в поле "Reg. Features", но для Pank1 ничего кроме неклассифицированных областей не встречается
- распределение GC состава по гену (напоминает график кодирующего потенциала). Кстати, порог в 50% почти не преодолевается
- можно быстро получить рисунок любой схемы с помощью кнопки "Export this image"
При поиске с помощью поисковой строки на странице с находками можно получить генетическое древо с выравниваями (прямо как в BLAST на NCBI). Не удивительно, что по анализу Pank1 человек оказался наиболее схож с шимпанзе, горилой, орангутаном и др.