Главная
Практикум №9: "EMBOSS: пакет программ для анализа последовательностей"
Упражнения
№11. Команда cusp coding1.fasta freq.cusp ищет частоты кодонов в кодирующей последовательности coding1.fasta и
записывает результат в таблицу в freq.cusp.
№4. Команда transeq coding1.fasta prot1.fasta транслирует кодирующие последовательности,
лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода.
Результат - в одном fasta файле.
№6. Команда seqret alignment.fasta aln::alignment.msf переводит выравнивание из fasta-формата
в формат .msf.
№8. Команда featcopy chromosome.gb chromosome.gff переводит аннотации особенностей в записи gb-формата
в табличный формат .gff
№5. Команда transeq coding1.fasta prot.fasta -frame 6 транслирует кодирующие последовательности,
лежащие в одном fasta файле, в аминокислотные в 6 рамках fasta файл.
Сравнение аннотации генов белков в одной хромосоме бактерии или археи с трансляциями длинных открытых рамок считывания.
Выбранная бактерия - Rickettsia prowazekii Rp22, которая имеет одну хромосому:
последовательность хромосомы в формате genbank.
AC: CP001584
Получение трансляции открытых рамок с помощью команды getorf пакета EMBOSS.
Так как данная программа извлекает открытые рамки считывания только с НУКЛЕОТИДНЫХ последовательностей (которых нет в формате .gb),
был использована последовательность хромосомы E.coli в fasta-формате.
Для данной программы были прописаны следующие опции (Рис.1):
Таблица генетического кода для данного генома: -table 11
Минимальная длина открытой рамки: -minsize 180
Кольцевая хромосома: -circular
Трансляции открытых рамок от стоп кодона до стоп кодона: -find 0
Команда: getorf rick.fasta -table 11 -minsize 180 -circular -find 0 > rick.orf
Fasta-файл с открытыми рамками ЗДЕСЬ.
Получение списка координат и ориентаций найденных открытых рамок с помощью infoseq.
Команда следующая: infoseq coli.orf -only -name -sprotein1 -length -description > result. С её помощью был получен
список координат и ориентаций найденных открытых рамок. Однако здесь присутствовало много лишней информации, которая была отфильтрована с помощью
Excel. Результат: Таблица Excel.
Получение списка аннотированных генов белков.
Сперва был скачан файл с fasta-последовательностями белков: ССЫЛКА.
Далее была скчана хромосомная таблица со списком генов белков, которая была обработана в Excel и отсортирована по "from":
Таблица Excel.
Далее обе таблицы анализировались в одном файле: Сравнение таблиц.
Расхождения представлены на Рис. 1.
Рис. 1. Аннотированные гены выделены жёлтым цветом.
Сразу, в частности, можно заметить расхождение: для гена NC_017560.1 (выделен голубым цветом на Рис.1) отсутствует открытая рамка считывания.
Это объясняется тем, что данный ген начинается сразу с 1 нуклеотида старт-кодоном и заканчивается стоп-кодоном. Так как getorf ищет участки
между стоп-кодонами, то фрагмент хромосомы до первого стоп-кодона программа "проглядела".
Следующие за ним гены уже имеют каждый свою рамку считывания, которые выделены на Рисю.1 различными цветами. Однако ещё немаловажные отличия -
каждый ген выходит за свою рамку считывания ровно на 3 нуклеотида (Рис.1). Это объясняется наличием стоп-кодонов в генах белков, которых нет в ORF.
На Рис.1 представлены 6 таких открытых рамок.
Кроме того, помимо рамок, содержащих полный ген, существуют открытые рамки, в которых нет генов (12 таких рамок выделены зелёным на Рис.1).
Такие рамки обычно короче (длина часто менее 100 остатков). Действительно, наличие открытой рамки является необходимым, но не достаточным условием
существования гена на данном участке. Поэтому в геномах присутствие таких "пустых" орфов - обычное явление.
Так же можно найти гены белков, для которых нет орфов по причине их слишком маленькой длины (менее 60 остатков белок, так как мы задавали длину орфа не менее 180 п.н.)
Один из таких примеров представлен на Рис.2.
Рис. 2. Белок длины 55 остатка, для которого нет открытой рамки считывания.
На Рис.3 приведён пример перекрывания антипараллельных рамок размером 378 п.н. (гораздо больше, чем 150). На одна из этих рамок, расположенной на
прямой цепи (CP001584.1_1), располагается ген NC_017560.1, который и транскрибируется с данной рамки. Другая рамка CP001584.1_2379 на комплементе, несмотря на то, что
почти не устпает по длине CP001584.1_1), не содержит никакого гена. Действительно, при больших перекрываниях антипараллельных рамок, обычно ген есть
лишь в одной из них, либо гена нет в обеих таких рамках: довольно сложно представить, чтобы гены нормально транскрибировались с
обеих перекрывающихся рамок.
Рис. 3. Антипараллельные перекрывающиеся рамки взяты в красный прямоугольник.
© Павел Волик
Факультет биоинженерии и биоинформатики, МГУ