Задания: сравнение аннотации генов белков в одной хромосоме бактерии или археи с трансляциями длинных открытых рамок считывания.
Бактерию взял "свою" из прошлого семестра, Bacteroides thetaiotaomicron, штамм VPI-5482. Подробнее почитать про сам организм можно, например, здесь.
Бактерия имеет одну кольцевую хромосому: Последовательность хромосомы в формате GenBank.
AC записи: NC_004663
Последовательность в fasta-формате: ссылка.
1. Получение трансляции открытых рамок с помощью команды getorf пакета EMBOSS.
Программа getorf извлекает открытые рамки считывания только с нуклеотидных последовательностей (а их в формате .gb нет), поэтому была использована запись в fasta-формате. Так же были прописаны следующие опции:
- Таблица генетического кода для данного генома: -table 11
- Минимальная длина открытой рамки: -minsize 180
- Кольцевая хромосома: -circular
- Трансляции открытых рамок от стоп кодона до стоп кодона: -find 0
Команда выделена красным
Результат - файл с открытыми рамками считывания.
2. Получение списка координат и ориентаций найденных открытых рамок с помощью infoseq.
Команда: infoseq bacteroides.orf -only -name -sprotein1 -length -description > infoseqresult.
Полученный файл был отредактирован с помощью Excel:
Таблица результатов
3. Получение списка аннотированных генов белков.
Была скачана и приведена в соответствующий вид Таблица аннотированных белков Bacteroides thetaiotaomicron. Так же, был получен fasta-файл с последовательностями
всех аннотированных белков, в форме .gz - архива.
После этого две таблицы были объединены в одну общую, и отсортированы по столбцы началу в геноме; Однако начало ни одного из аннотированных генов не совпало
с началом на открытых рамках считывания, в среднем начало генов отличается на несколько десятков нуклеотидов, в лучшем случае - на три (см. рис. 10)
Рис.10: близкие по рамке считывания гены из разных таблиц
Назад к странице семестров
|