EMBOSS
1. Программа getorf пакета EMBOSS
Создадим файл с записью D89965 банка EMBL, для этого воспользуемся командой:
entret embl:D89965 -auto
Получаем файл d89965.entret с полной записью D89965, в которой, как оказалось, содержится последовательность матричной РНК мужской особи Rattus norvegicus, полученной из клеток тканей желудка. Для того, чтобы получить набор трансляций всех открытых рамок считывания этой последовательности,которые определены при использовании стандартного кода, с длиной не менее 30 аминокислотных остатков, начинающихся со старт-кодона и заканчивающиеся стоп-кодоном, используем программу getorf с определенными параметрами:
Таким образом, запускаем команду:
getorf d89965.entret -minsize 90 -find 1 -table 0
Получаем файл d89965.orf с пятью открытыми рамками считывания. Замечаем, что третья рамка практически полностью соответствует приведенной в поле FT кодирующей последовательности (CDS). Убедиться в этом можно, посмотрев на вырезки из записей, полученных ранее:
>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
FT CDS 163..435 FT /product="RSS" FT /note="Rat Stomach Serotonin receptor-related gene" FT /db_xref="GOA:P0A7B8" FT /db_xref="InterPro:IPR001353" FT /db_xref="InterPro:IPR022281" FT /db_xref="PDB:1E94" FT /db_xref="PDB:1G4A" FT /db_xref="PDB:1G4B" FT /db_xref="PDB:1HQY" FT /db_xref="PDB:1HT1" FT /db_xref="PDB:1HT2" FT /db_xref="PDB:1NED" FT /db_xref="PDB:4G4E" FT /db_xref="UniProtKB/Swiss-Prot:P0A7B8" FT /protein_id="BAA14040.1" FT /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY FT GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"
Запись EMBL d89965.entret ссылается на запись P0A7B8 Swiss-Prot, поэтому с помощью команды seqret получим последовательность записи Swiss-Prot:
seqret sw:P0A7B8
Поулчаем файл hslv_ecoli.fasta с последовательностью белка HSLV_ECOLI. Заметим, что эта последовательность соответствует пятой рамке считывания:
>HSLV_ECOLI P0A7B8 ATP-dependent protease subunit HslV (3.4.25.2) (Heat shock protein HslV) MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
>D89965_5 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Как же так получается, что запись с мРНК крысы ссылается на запись с последовательностью белка кишечной палочки? Это можно объяснить тем, что эти бактерии являются частью нормальной флоры кишечника как человека, так и животных, поэтому вполне возможно, что во время эксперимента была отсеквенирована последовательность гена кишечной палочки и по ошибке принята за ген крысы.
2. Файлы-списки
С помощью программ пакета EMBOSS:
seqret sw:adh*_* adh.fasta
infoseq adh.fasta -usa -only >> usa.txt
grep -f organism.txt usa.txt >> usa_grep.txt
seqret @usa_grep.txt mysequences.fasta
Таким образом, имеем файл с последовательностями алкогольдегидрогеназ предложенных организмов: mysequences.fasta.
3. EnsEMBL
Портал EnsEMBL предназначен для визуализации известной информации о геномах человека и животных. Для начала поищем информацию о гене, кодирующем белок EST1A_HUMAN, введя идентификатор в поле поиска. В итоге получаем пять результатов, один из них - это сам ген, а остальные - транскрипты. Если перейти по ссылке, соответствующей гену, мы увидим подробную информацию о нем, включая краткое описание, хромосому, в которой локализован этот ген и точные координаты. Также слева есть колонка с ссылками на дополнительную информацию о гене, перейдя по некоторым из них мы можем увидеть последовательность гена с выделенными экзонами, узнать об экспрессии гена в клетках разных тканей, также узнать о паралогах и ортологах и их представленности в разных организмах. В этой колонке также можно обнаружить опцию Export Data, которая позволяет скачать последовательность гена со всеми экзонами, что мы и делаем:ENSG00000070366.fasta.
Далее привычным нам способом, а именно с помощью пакета EMBOSS, получим последовательность гена, кодирующего белок EST1A_HUMAN:ay145883.fasta.
А теперь попробуем воспользоваться сервисом "BLAST/BLAT", поищем ген AY145883. В результате на странице появляются три поля и первое из них Alignment Locations vs. Karyotype(рис.1). Здесь мы можем увидеть расположение искомого гена в геноме человека. В данном случае он расположен на 17-ой хромосоме и обведен красной рамкой.
Рис.1. Расположение гена AY145883 в геноме человека.
Следующее поле называется Alignment Locations vs. Query(рис.2). Как я поняла, здесь изображено выравнивание нашего фрагмента с геномом человека.
И наконец третье поле Alignment Summary(рис.3), в котором представлена полная информация о выравнивании. Эта таблица хороша тем, что мы сами можем выбирать параметры, значения которых будут отображаться.Рассмотрим столбец links подробнее. Он состоит из трех колонок:
Рис.3.
Рис.4.
Рис.5.
Рис.6.