Задания по предсказанию генов прокариот

В данном практикуме используется плазмида с идентификатором CP013945. Данная плазмида относится к виду Piscirickettsia salmonis (грам-отрицательные бактерии). Бактерия является возбудителем довольно опасной болезни лососевых и представляет довольно серьезную проблему в их разведении.
Классификация: Bacteria-> Proteobacteria-> Gammaproteobacteria-> Thiotrichales-> Piscirickettsiaceae-> Piscirickettsia.

Рис. 1 - Piscirickettsia salmonis в тканях

Краткая характеристика плазмиды:
Размер плазмиды (в п.о.): 57427 bp;
Количество генов на ней: 3521;
Количество белок-кодирующих генов на ней: 3212.
Псевдо гены: 231;
tRNAs: 56; ncRNAs: 4;
С помощью команды seqret (1) и (2) были получены файлы формата fasta и gff.
(1) seqret embl:CP013945 CP013945.fasta
(2) seqret embl:CP013945 -feature CP013945.gff (получение файла с особенностями)
(3) prodigal.windows.exe -i CP013945.fasta -o Prodigal

Файл формата gff с особенностями был экспортирован в Excel и преобразован в таблицу с информацией о координатах кодирующих белки последовательностей (начало, конец, ориентация).
Ссылка на файл формата xlsx с полученными данными.
С помощью команды (3) в строке Far-а был получен файл Prodigal с предсказаниями генов, который был экспортирован и обработан в Excel.
Ссылка на файл формата xlsx с полученными данными.
Далее была проведена оценка некоторых количественных показателей с помощью Excel - результаты представлены ниже в виде файла Excel и круговой диаграммы (рис. 2).
Ссылка на файл формата xlsx с полученными данными.

Рис. 2 - Диаграмма по некоторым показателям

Вычисление проводилось так: визуально на одном листе были сравнены данные feature и Prodigal и выявлены белки, которые есть либо в одной колонке, либо в другой. Далее была задана функция на выявление полного совпадения; белки, у которых не совпадал хотя бы один конец были сравнены вручную, для получения более достоверных данных.
Также были разобраны 2 случая, когда аннотация на одном конце гена не совпала:
1) Как можно заметить: в случае, представленном на рис. 3, в качестве "итоговой аннотации Prodigal" был выдан последний вариант. В то время как GenBank выдает 3-ий вариант. Эти два варианта имеют различные стартовые кодоны, что может являться причиной различия координат N-конца.

Рис. 3 - Все варианты, выдаваемые Prodigal для C-конца с координатой 5792

2) В данном случае (рис. 4) стартовый кодон одинаковый для всех вариантов. Различие лишь в "весе" - у "итогового варианта", выдаваемого Prodigal, он больше, нежели у GenBank варианта. Отсюда и идет погрешность в предсказаниях.

Рис. 4 - Все варианты, выдаваемые Prodigal для C-конца с координатой 50387


Все варианты предсказания Prodigal были получены на одноименном сайте с помощью Prodigal v1.20 Analysis Server.

© Kalashnikova Anastasia, 2016