EMBOSS

Поиск открытых рамок считывания - программа getorf пакета EMBOSS

Получаем запись D89965:entret embl:D89965 -auto результат
Ищем в ней ORF: getorf d89965.entret -table 0 -minsize 90 -find 1

Найденные рамки:
>D89965_1 [66 - 155] Rattus norvegicus mRNA for RSS, complete cds.
MQFHPRLPAVLQVCAACDRYASLLPAQRRL
>D89965_2 [56 - 169] Rattus norvegicus mRNA for RSS, complete cds.
MISDAVSSATASSASSLRSMRSVRQSFASSTAALTRWP
>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
>D89965_4 [218 - 3] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MLLRCSNCLNVNWKCIRAIWSKPPLSWQKTGVPIACCANLKHCWQSRMKLHRLSSPVTVT
WCSQKTILLLSA
>D89965_5 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS

Из этих рамок соответствует CDS - третья. Однако запись EMBL ссылается на запись Swiss-Prot с идентификатором P0A7B8 (entret sw:P0A7B8 ). С удивлением обнаружим, что эта последовательность принадлежит E.coli и соответствует белку HSLV_ECOLI.

Подтверждение: seqret sw:P0A7B8
blastp -query hslv_ecoli.fasta -subject getorf.txt -out ecorat.out
Query= HSLV_ECOLI P0A7B8 ATP-dependent protease subunit HslV (3.4.25.2)
(Heat shock protein HslV)

Subject= D89965_5 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS,
complete cds.

Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98
Выравнивается пятая рамка.
Вполне вероятно, что секвенированный образец из крысы был загрязнён бактериями, тем более такими кишечно-типичными, как E. coli. Запись D89965 довольно старая (2002), в тот момент секвенированного генома крысы могло и не быть. Это могло быть одним из факторов, из-за которых ошибка не была замечена. EMBL - нереферируемая база, поэтому файл с ошибкой там до сих пор и лежит.

Файлы-списки

Цель: получить файл со последовательностями всех алкогольдегидрогеназ из выбранных организмов.
Команды:
  • seqret sw:adh*_* (Дальше указать как output adh.fasta) - поиск в базе данных SwissProt всех записей, относящихся к алкогольдегидрогиназе и запись их в файл
  • infoseq adh.fasta -only -usa > adhall.txt
  • grep -f organismlist.txt adhall.txt > adhsel.txt, где organismlist.txt - список аббревиатур от названий организмов - отбираем из всех названий только те, в которых упоминается один из этих организмов
  • seqret @adhsel.txt adhseqs.fasta - извлечение только нужных последовательностей - Результат
  • EnsEMBL

    EnsEMBL - геномный браузер, предназначенный для визуализации информации о геномах человека и животных.
    Белок - KRT38, как и прежде.
    C помощью прямого поиска можно узнать базовую информацию о гене: расположение, координаты, структуру (рис.1), длину, варианты сплайсинга и т.п.

    Рис 1. Экзон-интронная структура гена KRT38_HUMAN.
    С этой страницы можно сохранить последовательность гена, его экзонов и интронов и белка, в нём закодированного (Export data): KRT38. Нажав на Gene tree (image), можно получить дерево (рис.2), построенное по интересующему гену и его гомологам (если есть) среди прочих позвоночных, для которых известны геномы.

    Рис. 2. Дерево, построенное по выбранному гену

    Используя BLAST/BLAT, произведём поиск того же гена по его последовательности. Выдача программы представляет собой таблицу хитов (рис.2) с удобной настраиваемой сортировкой. Кроме того, можно посмотреть распределение хитов по хромосомам (рис.4), наилучший обведён в рамочку.



    Рис. 3 Фрагмент таблицы с выводом результатов


    Рис. 4 Расположение находок BLAT в геноме человека

    Если перейти по ссылке ContigView (символ [C] - левый столбец в списке хитов), то мы попадем на страницу с иллюстрациями расположения данного хита: вся хромосома, конкретная область и локус.

    Рис 5. Расположение KRT38 на 17 хромосоме
    Ген находится не так уж далеко от центромеры.


    Рис 6. Регион, к которому относится ген
    Видно, что в регионе довольно много разных кератинов, а также KRTAP (keratin associated protein) - идентифицированных по кДНК неизвестных генов. Многие гены в регионе сломаны (серый цвет), в целом же участок довольно замусоренный.


    Рис 7. Локус, к которому относится KRT38.
    Здесь мы снова видим аннотацию экзонов и можем посмотреть, например, GC содержание в интересующем месте.