Программа getorf пакета EMBOSS

Была получена полная запись D89965 из банка EMBL и записана в файл-entret - мРНК крысы Rattus norvegicus. Далее c помощью команды getorf d89965.entret -minsize 30 -find 1 -table 0 на kodomo-машине получен набор трансляций всех открытых рамок данной последовательности, удовлетворяющих условиям:

определены прииспользовании стандартного кода
длина не менее 30 аминокислотных остатков
начинаются со старт-кодона и заканчиваются стоп-кодоном

Полученные трансляции записаны в файл. Из найденных открытых рамок пятая полностью соответсвует приведённой в поле FT кодирующей последовательности (CDS) в записи D89965.

Примечательно, что эта запись ссылается на другую запись в Swiss-Prot, которая также была записана в файл-fasta. Это субъединица АТФ-зависимой протеазы E. coli. Она частично выравнивается (зато идеально) с одной из рамок считывания мРНК крысы, а именно с 9-ой, причём на обратной цепи. Выравнивание (верхняя строка соответсовует ORF, нижняя - белку E. coli):

  1 ---------------------------MKGNVKKVRRLYNDKVIAGFAGG     23
                               |||||||||||||||||||||||       
  1 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGG     50
                                                             
 24 TADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVAD     73
    ||||||||||||||||||||||||||||||||||||||||||||||||||       
 51 TADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVAD    100
                                                             
 74 ETASLIITGNGDVVQPENDLIAIGS-------------------------     98
    |||||||||||||||||||||||||                                
101 ETASLIITGNGDVVQPENDLIAIGSGGPYAQAAARALLENTELSAREIAE    150
                                                             
 98 --------------------------     98                        
                                                             
151 KALDIAGDICIYTNHFHTIEELSYKA    176

Наблюдается довольно необычная картина: одной мРНК крысы соответсвует её (предполагаемый) белок и белок кишечной палочки. Однако стоит заметить, что для изучения была взята ткань желудка крысы. И не исключено, что при секвенировании образца в него попала НК кишечной палочки. А авторы, наверняка, хотели предсказать белок в последовательности, опираясь на её физические свойства, и именно этот фрагмент НК E.coli оказался подходящим. Возможно именно поэтому авторы неправильно аннотировали ген.

Файлы-списки

В файл adh.fasta c помощью команды seqret sw:adh*_* -outseq adh.fasta были записаны все доступные в Swiss-Prot последовательности алкогольдегидрогеназ.
В файле txt выписаны только их идентификаторы, осуществлено командой infoseq sw:adh*_* -only -usa -outfile adh.txt.
Из этого файла-списка был получен другой с адресами только определённых организмов, команда имеет вид: grep adh.txt -f list.txt > mylist.txt
На основе нового файла-списка били получены последовательности дегидрогеназ выбранных организмов с помощью команды seqret @mylist.txt myseq.fasta и записаны в myseq.fasta.

EnsEMBL

Был выбран белок PanK1_human, и получена аминокислотная последовательность. Далее предпринята попытка найти последовательность гена этого белка, используя сервис "BLAST/BLAT". Но вместо выдачи имеем странную страницу:

Тогда с главной страницы EnsEMBL с помощью поиска искался ген по имене белка. Оказалось, что их названия совпадают. Тогда со страницы гена была открыта страница Region in detail. С этой страницы можно узнать

расположение гена на хромосоме: хромосома 10, участок после q23.1 обведён красной рамочкой; видимо, это и есть PanK1
на нижней схеме указаны различные варианты сплайсинга (наборы CCDs)
особенности гена указаны в поле "Reg. Features", но для Pank1 ничего кроме неклассифицированных областей не встречается
распределение GC состава по гену (напоминает график кодирующего потенциала). Кстати, порог в 50% почти не преодолевается
можно быстро получить рисунок любой схемы с помощью кнопки "Export this image"

На первой схеме можно, оказалось, можно выделить касной рамочкой любой участок этой хромосомы. Информация о нём отобразится ниже.

При поиске с помощью поисковой строки на странице с находками можно получить генетическое древо с выравниваями (прямо как в BLAST на NCBI). Не удивительно, что по анализу Pank1 человек оказался наиболее схож с шимпанзе, горилой, орангутаном и др.