В данном практикуме используется плазмида с идентификатором CP013945.
Данная плазмида относится к виду Piscirickettsia salmonis (грам-отрицательные бактерии).
Бактерия является возбудителем довольно опасной болезни лососевых и представляет довольно серьезную проблему в их разведении.
Классификация: Bacteria-> Proteobacteria-> Gammaproteobacteria-> Thiotrichales-> Piscirickettsiaceae-> Piscirickettsia. |
Рис. 1 - Piscirickettsia salmonis в тканях
![]() |
Краткая характеристика плазмиды:
Размер плазмиды (в п.о.): 57427 bp; Количество генов на ней: 3521; Количество белок-кодирующих генов на ней: 3212. Псевдо гены: 231; tRNAs: 56; ncRNAs: 4; С помощью команды seqret (1) и (2) были получены файлы формата fasta и gff. |
(1) seqret embl:CP013945 CP013945.fasta
(2) seqret embl:CP013945 -feature CP013945.gff (получение файла с особенностями) (3) prodigal.windows.exe -i CP013945.fasta -o Prodigal |
---|
Файл формата gff с особенностями был экспортирован в Excel и преобразован в таблицу с информацией о координатах кодирующих белки последовательностей (начало, конец, ориентация). Ссылка на файл формата xlsx с полученными данными. С помощью команды (3) в строке Far-а был получен файл Prodigal с предсказаниями генов, который был экспортирован и обработан в Excel. Ссылка на файл формата xlsx с полученными данными. Далее была проведена оценка некоторых количественных показателей с помощью Excel - результаты представлены ниже в виде файла Excel и круговой диаграммы (рис. 2). Ссылка на файл формата xlsx с полученными данными. |
Рис. 2 - Диаграмма по некоторым показателям
![]() |
Вычисление проводилось так: визуально на одном листе были сравнены данные feature и Prodigal и выявлены белки, которые есть либо в одной колонке, либо в другой.
Далее была задана функция на выявление полного совпадения; белки, у которых не совпадал хотя бы один конец были сравнены вручную, для получения более достоверных данных.
Также были разобраны 2 случая, когда аннотация на одном конце гена не совпала: 1) Как можно заметить: в случае, представленном на рис. 3, в качестве "итоговой аннотации Prodigal" был выдан последний вариант. В то время как GenBank выдает 3-ий вариант. Эти два варианта имеют различные стартовые кодоны, что может являться причиной различия координат N-конца. |
Рис. 3 - Все варианты, выдаваемые Prodigal для C-конца с координатой 5792
![]() |
2) В данном случае (рис. 4) стартовый кодон одинаковый для всех вариантов. Различие лишь в "весе" - у "итогового варианта", выдаваемого Prodigal, он больше, нежели у GenBank варианта. Отсюда и идет погрешность в предсказаниях. |
Рис. 4 - Все варианты, выдаваемые Prodigal для C-конца с координатой 50387
![]() |
Все варианты предсказания Prodigal были получены на одноименном сайте с помощью Prodigal v1.20 Analysis Server. |
© Kalashnikova Anastasia, 2016