Учебный сайт Николаевой Дарьи

EMBOSS: пакет программ для анализа последовательностей

Упражнения

seqret: собирает несколько файлов в формате fasta в единый файл
Я собрала в файл fasta все записи UniProt, AC которых начинается с Q11 (Рис. 1).

Рис. 1. Команда seqret.
seqretsplit: разделяет один файл в формате fasta с несколькими последовательностями на отдельные fasta файлы
Я разделила свой файл h4.fasta (c последовательностями белков из практикума 8) на отдельные fasta-файлы с названием последовательностей, в них содержащихся. Команда и результат на Рис. 2.

Рис. 2. Команда seqretsplit и ее результат.
(6) seqret: также позволяет перевести выравнивание из fasta-формата в формат .msf
Для этого задания я взяла файл 1.fasta из практикума 7, который содержит выравнивание лучшей находки с исходной.
Команда на Рис. 3. Результат в файле 1.msf.

Рис. 3. Команда seqret для смены формата выравнивания.
transeq: позволяет транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода.
Я взяла файл, содержащий последовательности гена субъединицы 1 цитохромоксидазы и лучших находок (по результатам blast).
Результат - в одном fasta-файле. Использованная команда на Рис. 4.

Рис. 4. Команда transeq.
transeq: транслирует данную нуклеотидную последовательность в шести рамках.
Использовался файл, содержащий консенсусную последовательность из практикума 6 (ген субъединицы 1 цитохромоксидазы у Polycirrus medusa).
Результат трансляции в 6 рамках: fasta-файл. С командой можно ознакомиться на Рис. 5.

Рис. 5. Команда transeq - трансляция последовательности в 6 рамках.
(11)cusp: находит частоты кодонов в данных кодирующих последовательностях.
Входной файл: ген субъединицы 1 цитохромоксидазы. Результат работы программы: файл. Команда на Рис. 6.

Рис. 6. Команда cusp.
(12)compseq: находит частоты динуклеотидов (опция -word 2) в данной нуклеотидной последовательности и может сравнить их с ожидаемыми (опция -calcfreq).
Входной файл: ген субъединицы 1 цитохромоксидазы. Результат работы программы: файл. Команда на Рис. 7.

Рис. 7. Команда compseq.
infoalign: выводит число совпадающих букв между второй последовательностью выравнивания (опция -refseq 2) и всеми остальными (на выходе только имя последовательности и число: опции -only -name -idcount).
Входной файл: выравнивание 4 последовательностей, кодирующих ген субъединицы 1 цитохромоксидазы. Результат работы программы: файл. Команда на Рис. 8.

Рис. 8. Команда infoalign.
featcopy: позволяет перевести аннотации особенностей в записи формата .gb в табличный формат .gff.
Входной файл: seq.gb. Результат работы программы: файл. Команда на Рис. 9.

Рис. 9. Команда featcopy.
shuffle: перемешивает буквы в данной нуклеотидной последовательности.
Входной файл: ген субъединицы 1 цитохромоксидазы. Результат работы программыи команда на Рис. 10.

Рис. 10. Команда shuffle и результат ее работы.

Сравнение аннотации генов белков в одной хромосоме бактерии или археи с трансляциями длинных открытых рамок считывания

Для выполнения заданий данного практикума я выбрала свою бактерию из 1-го семестра: Aquifex aeolicus VF5 (Рис. 11).

Изображение не загрузилось

Рис. 11. Бактерия Aquifex aeolicus VF5.

Генетический материал этой бактерии представлен двумя кольцевыми молекулами ДНК: хромосомой (длина 1551335 п.н.) и плазмидой (длина 39456 п.н.). Ссылки на записи NCBI: NC_000918.1 (хромосома), NC_001880.1 (плазмида).
Задания я выполняла для хромосомы Aquifex aeolicus VF5: запись в GenBank (ссылка на файл). Но так как нуклеотидная последовательность хромосомы слишком длинная, в файле .gb содержится только аннотация, для выполнения последующих команд я использовала файл в формате fasta.

Задание 1. Получить список трансляций открытых рамок.
В данном задании требовалось получить трансляции открытых рамок с помощью команды getorf пакета EMBOSS. Данная команда ищет открытые рамки и транслирует последовательности открытых рамок. Требовалось выполнить команду со следующими опциями:

Минимальная длина открытой рамки - 180 п.н.: -minsize 180
Таблица генетического кода для данного генома (для бактерии): -table 11
Кольцевая хромосома: -circular
Выходные последовательности - трансляции открытых рамок от стоп кодона до стоп кодона: -find 0

Команда представлена на Рис. 12. Результатом является fasta-файл с трансляциями открытых рамок: ссылка.

Изображение не загрузилось

Рис. 12. Команда getorf (подчеркнута желтой линией).

Далее я получила список координат и ориентаций найденных открытых рамок с помощью infoseq - программы, которая позволяет работать с данными о полученных последовательностях и выбирать нужные. Я запустила команду (Рис. 13) со следующими опциями:

-name (получим ID открытой рамки)
-description (в числе прочего - координаты в геноме)
-sprotein1 - length (длина трансляции в остатках)

Рис. 13. Команда infoseq (подчеркнута желтой линией).

Однако результат работы команды дает некоторые избыточные данные, так что потребовалось отфильтровать нужные данные и привести их в читаемый вид в Excel. Таким образом, ID, координаты в геноме и длина трансляции (в остатках) для каждой открытой рамки приведены в файле Excel.

Задание 2. Получить список аннотированных генов белков.
Для выполнения данного задания я скачала файлы NC_000918.faa (аминокислотные последовательности всех белков в формате fasta) и NC_000918.ptt (хромосомная таблица со списком генов белков). Примечание: с последним файлом неудобно работать, поэтому я скачала с сайта NCBI файл со списком генов белков в текстовом формате: ссылка.
Далее потребовалось преобразовать таблицу со списком генов белков в таблицу Excel, оставив только нужные колонки и отсортировав по положению гена на хромосоме (по возрастанию числа в столбце from). Результат: файл Excel.
Задание 3. Сравнить две таблицы.
Для сравнения таблиц я объединила две таблицы в одну, результат - таблица.
При поверхностном взгляде можно заключить:

Аннотированных белков примерно в 5 раз меньше, чем открытых рамок (1497 против 8110). Это можно объяснить тем, что наличие открытой рамки не гарантирует присутствие гена, кодирующего белок.
Можно было ожидать, что среди аннотированных белков найдутся те, которые по размеру меньше 60 остатков (то есть их гены короче 180 п.н.) и поэтому не встречаются в открытых рамках (где мы ограничили наименьшую длину рамки), но я не нашла подтверждения своей гипотезы.
Что касается конкретных различий, то первым делом я заметила, что во всех записях, относящихся к одному гену и совпадающих по длине, аннотированный ген заканчивается и начинается на 3 нуклеотида позже (на обратной цепи, соответственно, раньше по номеру), чем ген ORF (на Рис. 14а пример для прямой цепи, на Рис. 14b - для обратной).

Рис. 14a. Фрагмент таблицы сравнения: различие в определении границ гена Annotation и ORF (смещение на 3 нуклеотида) (прямая цепь).

Рис. 14b. Фрагмент таблицы сравнения: различие в определении границ гена Annotation и ORF (смещение на 3 нуклеотида) (обратная цепь).

На самом деле, создавшаяся ситуация совсем не очевидна (по сравнению со следующим случаем). Полагаю, что это связано с различием в определении понятия "ген": еще раз повторюсь, что в ORF ген - последовательность от "стопа" до "стопа", а в Annotation - от старта до стопа; и, возможно, в комбинации с альтернативным стартом.
Следующее различие более понятно: аннотированный ген длиннее на 1 кодон, чем открытая рамка (на Рис. 15а - пример на прямой цепи, на Рис. 15b - на обратной). Это можно объяснить тем, что в открытую рамку не входит стоп-кодон.

Рис. 15a. Фрагмент таблицы сравнения: различие в определении конца гена Annotation и ORF (ORF короче на 3 нуклеотида) (прямая цепь).

Рис. 15b. Фрагмент таблицы сравнения: различие в определении конца гена Annotation и ORF (ORF короче на 3 нуклеотида) (обратная цепь).
Большое количество отличий в длине аннотированного гена и открытой рамки связано с наличием у прокариот альтернативных старт-кодонов: GTG, CTG, TTG, ATT. Из-за того, что реальный ген начинается с нестандартного старт-кодона, открытая рамка принимает за старт ближайший AUG и оказывается длиннее аннотированного гена. Примеры на прямой и обратной цепях на Рис. 16а-b.

Рис. 16a. Фрагмент таблицы сравнения: различие в определении старта Annotation и ORF (ORF длиннее) (прямая цепь).

Рис. 16b. Фрагмент таблицы сравнения: различие в определении старта Annotation и ORF (ORF длиннее) (обратная цепь).
Один из самых интересных и самых странных примеров связан с самым началом хромосомы: гену огромного первого белка (700 остатков) не соответствует ни одна из рамок на прямой цепи, зато с ним перекрываются 4 практически последовательные рамки на обратной цепи (Рис. 17a). К слову, первая рамка на прямой цепи начинается только с позиции 2105! По всей видимости, getorf не узнал первый старт, а AUG ему либо не попадался, либо нельзя было так разбить последовательность, чтобы все рамки были длиннее 180 нуклеотидов.

Рис. 17а. Фрагмент таблицы сравнения: гену не соответствует ни одна ORF на прямой цепи, но с ним перекрываются 4 рамки на обратной цепи.

На Рис. 17b представлен пример следующего явления: аннотированному гену соответствуют не только наиболее похожая открытая рамка, но и еще одна рамка, перекрывающаяся с первой (точнее, полностью входящая в нее). Причиной этого может быть распознавание программой дополнительных старта и стопа внутри гена.

Рис. 17b. Фрагмент таблицы сравнения: гену соответствует не только более длинная ORF, но и более короткая рамка на прямой цепи.
Еще одно интересное различие: записи Annotation и ORF, относящиеся к одному гену, "разделены" перекрывающейся рамкой с обратной цепи (Рис. 18). Оно могло произойти просто в результате того, что задача программы getorf - разбить геном на рамки, не учитывая наличия у прокариот таких "отклонений", как перекрывание генов или, к примеру, присутствия интронов (хотя и редко). Видимо, в данном промежутке обратной цепи просто встретились кодоны, распознанные как старт и стоп.

Рис. 18. Фрагмент таблицы сравнения: гену соответствует не только более длинная ORF, но и некая рамка на обратной цепи.
Следующий пример аналогичен предыдущему, но там присутствует перекрывание между антипараллельными рамками и между рамкой на обратной цепи и геном, длина которого более 150 п. н. Предполагаемая причина, как и выше, - неточности в работе программы (Рис. 19а).

Рис. 19a. Фрагмент таблицы сравнения: гену соответствует не только более длинная ORF, но и некая рамка на обратной цепи (пример перекрывания).

И еще один пример из этой серии (Рис. 19b), но в данном случае с открытой рамкой на прямой цепи перекрываются 2 рамки на обратной цепи, которые, в свою очередь, перекрываются между собой, причем размер перкрытия около 500 нуклеотидов.

Рис. 19b. Фрагмент таблицы сравнения: гену соответствует не только более длинная ORF, но и некая рамка на обратной цепи (пример перекрывания).