EMBOSS
Поиск открытых рамок считывания - программа getorf пакета EMBOSS
Получаем запись D89965:entret embl:D89965 -auto результатИщем в ней ORF: getorf d89965.entret -table 0 -minsize 90 -find 1
Найденные рамки:
>D89965_1 [66 - 155] Rattus norvegicus mRNA for RSS, complete cds. MQFHPRLPAVLQVCAACDRYASLLPAQRRL >D89965_2 [56 - 169] Rattus norvegicus mRNA for RSS, complete cds. MISDAVSSATASSASSLRSMRSVRQSFASSTAALTRWP >D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA >D89965_4 [218 - 3] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MLLRCSNCLNVNWKCIRAIWSKPPLSWQKTGVPIACCANLKHCWQSRMKLHRLSSPVTVT WCSQKTILLLSA >D89965_5 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Из этих рамок соответствует CDS - третья. Однако запись EMBL ссылается на запись Swiss-Prot с идентификатором P0A7B8 (entret sw:P0A7B8 ). С удивлением обнаружим, что эта последовательность принадлежит E.coli и соответствует белку HSLV_ECOLI.
Подтверждение: seqret sw:P0A7B8blastp -query hslv_ecoli.fasta -subject getorf.txt -out ecorat.out
Query= HSLV_ECOLI P0A7B8 ATP-dependent protease subunit HslV (3.4.25.2) (Heat shock protein HslV) Subject= D89965_5 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. Query 28 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 87 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR Sbjct 1 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 60 Query 88 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 125 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS Sbjct 61 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 98Выравнивается пятая рамка.
Вполне вероятно, что секвенированный образец из крысы был загрязнён бактериями, тем более такими кишечно-типичными, как E. coli. Запись D89965 довольно старая (2002), в тот момент секвенированного генома крысы могло и не быть. Это могло быть одним из факторов, из-за которых ошибка не была замечена. EMBL - нереферируемая база, поэтому файл с ошибкой там до сих пор и лежит.
Файлы-списки
Цель: получить файл со последовательностями всех алкогольдегидрогеназ из выбранных организмов.Команды:
EnsEMBL
EnsEMBL - геномный браузер, предназначенный для визуализации информации о геномах человека и животных.Белок - KRT38, как и прежде.
C помощью прямого поиска можно узнать базовую информацию о гене: расположение, координаты, структуру (рис.1), длину, варианты сплайсинга и т.п.
Рис 1. Экзон-интронная структура гена KRT38_HUMAN.
С этой страницы можно сохранить последовательность гена, его экзонов и интронов и белка, в нём закодированного (Export data): KRT38. Нажав на Gene tree (image), можно получить дерево (рис.2), построенное по интересующему гену и его гомологам (если есть) среди прочих позвоночных, для которых известны геномы.
Рис. 2. Дерево, построенное по выбранному гену
Используя BLAST/BLAT, произведём поиск того же гена по его последовательности. Выдача программы представляет собой таблицу хитов (рис.2) с удобной настраиваемой сортировкой. Кроме того, можно посмотреть распределение хитов по хромосомам (рис.4), наилучший обведён в рамочку.
Рис. 3 Фрагмент таблицы с выводом результатов
Рис. 4 Расположение находок BLAT в геноме человека
Если перейти по ссылке ContigView (символ [C] - левый столбец в списке хитов), то мы попадем на страницу с иллюстрациями расположения данного хита: вся хромосома, конкретная область и локус.
Рис 5. Расположение KRT38 на 17 хромосоме
Ген находится не так уж далеко от центромеры.
Рис 6. Регион, к которому относится ген
Видно, что в регионе довольно много разных кератинов, а также KRTAP (keratin associated protein) - идентифицированных по кДНК неизвестных генов. Многие гены в регионе сломаны (серый цвет), в целом же участок довольно замусоренный.
Рис 7. Локус, к которому относится KRT38.
Здесь мы снова видим аннотацию экзонов и можем посмотреть, например, GC содержание в интересующем месте.