Учебная страница курса биоинформатики,
год поступления 2014
EMBOSS: пакет программ для анализа последовательностей
Команды для освоения: (1) help'ы: wossname, tfm, опции -help -verbose (2) работа с последовательностями и выравниваниями: seqret, infoseq - есть в задании, infoalign (3) работа с аннотациями записей: featcopy, extractfeat (4) работа с нуклеотидными последовательностями: cusp, compseq, transeq (5) перемешивание: shuffleseq (6) правильное выравнивание кодирующих последовательностей: tranalign (7) getorf - есть в задание
Упражнения
Для зачета необходимо сдать >= 5 упражнений либо устно, либо на веб-странице привести команду и описать результат.
Каждое сданное упражнение оценивается баллом.
- (seqret) Несколько файлов в формате fasta собрать в единый файл
- (seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
- (seqret) Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
- (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
- (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.
- (seqret) Перевести выравнивание и из fasta формате в формат .msf
- (infoalign) Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
- (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
- (extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
(shuffle) Перемешать буквы в данной нуклеотидной последовательности; (*) проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите с порогом E = 10 - по умолчанию)
- (cusp)Найдите частоты кодонов в данных кодирующих последовательностях
- (compseq) Найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с ожидаемыми
- (tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
Сравните аннотации генов белков в одной хромосоме бактерии или археи с трансляциями длинных открытых рамок считывания
- Выбор бактерии/археи и ее хромосомы - за вами. Возьмите, например, свою бактерию из 1го семестра.
- Сохраните последовательность хромосомы в формате genbank или embl (т.е. с аннотациями)
В отчёте приведите
- название бактерии/археи, хромосомы (если их несколько), AC записи
- команды, которыми вы получили таблицы с генами и открытыми рамками (с объяснением что делает)
- Ссылки на таблицу с аннотациями генов белков (ген, название, координаты, ориентация) и длинными открытыми рамками (номер рамки, координаты, ориентация)
Примеры расхождений в таблицах (>=10)
Объяснение расхождений (>=5)
Примеры антипараллельных открытых рамок с пересечением >= 150 п.н. (или указание, что таковых нет)
- Сравнение с аннотациями генов белков в районе этих рамок
- Возможное объяснение феномена
1. Получите список трансляций открытых рамок с помощью команды getorf пакета EMBOSS
Результат:
- таблица длинных - более 180 п.н. - открытых рамок считывания в формате Excel
- файл с трансляциями открытых рамок в формате fasta
План
- Получите трансляции открытых рамок с помощью команды getorf пакета EMBOSS
- Изучите параметры команды getorf
- tfm getorf или getorf -help -verbose или на сайте EMBOSS
- Выполните команду, прописав явно (т.е. -опция значение) следующие опции
- таблицу генетического кода для данного генома (см. в записи хромосомы при каждой открытой рамке)
- минимальную длину открытой рамки - 180 п.н.
- кольцевая или линейная хромосома
- выходные последовательности - трансляции открытых рамок от стоп кодона до стоп кодона
- Сохраните выполненную команду для отчета
- Изучите параметры команды getorf
- Получите список координат и ориентаций найденных открытых рамок с помощью infoseq
- Изучите параметры infoseq
- Выполните команду с такими параметрами, чтобы получить ID открытой рамки, координаты в геноме и длину трансляции в остатках
- Сохраните команду для отчета
- Отфильтруйте нужную информацию от ненужной. Сохраните результат в файле, который удобно открывать с помощью Excel
- Лучший способ - написать простенький python скрипт
- Можно открыть файл в Excel и в нем разбить на колонки и бессмысленные удалить; или еще как-нибудь
- Отсортируйте по началу открытой рамки в геноме
- Пример результата:
- Получите трансляции открытых рамок с помощью команды getorf пакета EMBOSS
Name from to ori Length NC_010644_15026 278 400 -1 41 NC_010644_1 365 511 1 49 NC_010644_3 523 1911 1 463 NC_010644_15025 543 734 -1 64 NC_010644_15024 712 888 -1 59 NC_010644_2 758 889 1 44 NC_010644_15023 948 1208 -1 87
Заметьте, что getorf выдает начало и конец открытой рамки на противоположной цепи в виде
NC_010644_15026 41 [400 - 278] (REVERSE SENSE) Elusimicrobium minutum Pei191 chromosome, complete genome
В итоговой таблице удобно переставить так, как в примере выше. (Я сделал это в Excel с помощью функции ЕСЛИ)
2. Получите список аннотированных генов белков
Результат:
- таблица аннотированных генов белков в формате Excel. Поля:
- идентификатор lucus_tag
- from
- to
- ori
- length (все - как в файле с открытыми рамками)
- PID - идентификатор гена, он же gi - для связи с последовательностями белков
- product - функция белка
- файл с последовательностями белков в формате fasta
- таблица аннотированных генов белков в формате Excel. Поля:
План
- Скачайте файлы с расширениями .ptt (хромосомная таблица со списком генов белков)и .faa (с последовательностями белков в формате fasta).
- Приведите список белков в таблицу Excel требуемого вида
- Отсортируйте по началу "from"
3. Сравните две таблицы Excel
- Если использовать Excel, то я предлагаю (но не настаиваю)поступить так:
- добавить в каждую таблицу 1й столбец source, и написать в нем ORF в 1й табл и Annotation - во второй
- объединить обе таблицы в одну и отсортировать по "from"
- придумайте, как действовать далее
В процессе ...