Предсказание генов прокариот

Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды

Для выполнения задания мне была дана плазмида Pediococcus damnosus strain TMW 2.1533, длина которой составляет 39658 bp (идентификатор CP012282).

Morphology of Pediococcus damnosus

Pediococcus damnosus – грам-положительные бактерии, встречающиеся в кисломолочных продуктах, фруктах и пр. растительном материале. Pediococcus damnosus являются облигатными анаэробами, метаболизирующими сахара из углеводов и таким образом вызывающими брожение.

Систематика:

Домен: Bacteria

Тип: Firmicutes

Класс: Bacilli

Порядок: Lactobacillales

Семейство: Lactobacillaceae

Род: Pediococcus

Геном Pediococcus damnosus имеет следующие характеристики:

Сначала была скачана последовательность выданной мне плазмиды в двух форматах: (.fasta ) и (.gff ). При этом в итоговом файле (.gff) были сохранены особенности (features) с помощью квалификатора -features, т.к. они понадобятся для дальнейшей работы.
команды:

seqret embl:CP012282 fasta::cp012282.fasta

seqret embl:CP012282 gff::cp012282.gff –feature

Полученные файлы: cp012282.fasta и cp012282.gff

Дальнейшая работа была тесно сопряжена с Microsoft Excel.

Файл с таблицей особенностей в формате (.gff), скачанный при помощи EMBOSS, был открыт в Microsoft Excel и почищен (была удалена "шапка" сверху и последовательность белка снизу (все после строки ##FASTA включительно)), после чего был и отсортирован по CDS и gene.

На отдельный лист (с названием «обрезанный») были скопированы только записи, соответствующие CDS, после чего все столбцы, кроме соответствующих началу, концу и направлению гена, были удалены.

Затем с помощью Prodigal были предсказаны гены в данной плазмиде.

команда: prodigal.windows.exe -i cp012282.fasta -o cp012282_gene -f sco

комментарий: -i входной файл в формате .fasta, -o выходной файл

При этом для записи результата был выбран (-f sco) формат sco

полученный файл: cp012282_gene.pro

После чего предсказание Prodigal в формате sco был импортирован в Excel и скопирован в отдельный лист отчетной книги (с названием «prodigal»). При импорте в качестве разделителя использовался символ нижнего подчеркивания "_".

Затем на лист «сравнение» были скопированы только столбцы, соответствующие началу, концу и направлению гена, из листов с названием «обрезанный» и «prodigal»

Далее был проведен сравнительный анализ предсказания Prodigal и аннотации GenBank

Для поиска значений в таблице была использована функция ВПР

Функция ВПР (вертикальный просмотр) ищет значение в крайнем левом столбце исследуемого диапазона, а затем возвращает результат из ячейки, которая находится на пересечении найденной строки и заданного столбца.

Ее синтаксис:

ВПР(искомая ячейка; таблица где искать; столбец; ЛОЖЬ/ИСТИНА)

!Поиск значений из искомой ячейки осуществляется в первом столбце заданной таблицы.

Для подсчета числа значений были использована функция СЧЁТЕСЛИ.

Пришлось сделать несколько вспомогательных столбцов.:

колонка 1: для не совпал ни N-конец, ни С-конец

колонка 2: для каждого С-конца в аннотации Genbank получить информацию о том, находится ли такой С-конец в аннотации Prodigal и вывести его;

колонка 3: для каждого N-конца в аннотации Genbank получить информацию о том, находится ли такой N-конец в аннотации Prodigal и вывести его;

колонка 4: для каждого начала в аннотации Genbank, если оно находится в Prodigal, вывести конец из аннотации Prodigal;

колонка 5: сравнить, совпадает ли конец из аннотации Prodigal в колонке 4 и конец в аннотации Genbank;

*(подсчет чисел из колонки 5 = число совпадающих полностью генов);

колонка 6 : проверка, действительно ли это начало является стартом трансляции белка? (учет направления);

Далее были подсчитаны интересующие нас значения:

число и % генов, которые аннотированы в GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же;

число и % генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal;

число и % генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal;

число и % генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal.

Примечание: процент считался от суммы всех возможных вариантов совпадения/несовпадения предсказания Prodigal; (т.е. мы просто суммируем: гены с не совпавшими N-концами + гены с не совпавшими С-концами + гены не совпавшими полностью + гены, совпавшие обоими концами).

Результаты были представлены в виде диаграммы


Сравнение

Число генов с одинаково предсказанными концами

42

Число генов с по-разному предсказанными C-концами

16

Число генов с по-разному предсказанными N-концами

12

Общее число предсказанных Prodigal генов

68

Общее число аннотированных в GenBank генов

61



Таким образом, для 42 генов Prodigal предсказал координаты концов так же, как они аннотированы в GenBank (53%). Как мне кажется, это довольно невысокий процент.

Далее будут рассмотрены примеры для конкретных предсказаний, когда аннотация на одном из концов гена не совпала. Попытаемся объяснить причину несовпадения.

Например, рассмотрим ген с координатами: 22324-22833 (+), который Prodigal предсказал так: 22315-22833 (+). Это ген, кодирующий по таблице генетического кода 11 nicking enzyme TraA.

Если использовать параметр -s в программе Prodigal, который позволяет записать в файл все варианты предсказания гена, но то можно убедиться, что правильный вариант предсказания там тоже присутствует, но с немного меньшим весом (44.01 у 22324-22833 против 56.11 у 22315-22833)

команда: prodigal.windows.exe -i cp012282.fasta -s cp012282_full

полученный файл: cp012282_full

Исследуемый ген (зеленым выделен аннотированный в Genbank старт-кодон (N-конец), лиловым – предсказанный Prodigal).

Как видно стартовый кодон тоже отличается, притом у предсказания 22324-22833, аннотированного в Genbank, старт-кодон более распространенный (ATG против GTG у Prodigal), возможно, поэтому этот ген аннотирован в Genbank именно так.

Так как предсказание для Genbank выполнялось другой программой (GeneMarkS+), что видно из рисунка выше, сложно однозначно сказать, что послужило причиной такого выбора.

Аналогично был не верно предсказан ген 28823.. 30371 (+) [как 29799.. 30371 (+)]. Этот ген кодирует TetR family transcriptional regulator [Lactobacillaceae] ( WP_056986435.1 ), тоже по таблице 11. И если вновь обратиться к файлу со всеми вариантами предсказания генов, можно увидеть аналогичную картину: нужный ген с таким же стартовым кодоном рассматривался, но был посчитан с меньшим весом (см. рис. ниже).

Исследуемый ген (зеленым выделен аннотированный в Genbank старт-кодон (N-конец), лиловым – предсказанный Prodigal).

В этом случае даже стартовые кодоны были одинаковы: ATG. (посм стоп-кодон)

Как видно, программа, использованная для предсказания, та же самая что и в первом примере (GeneMarkS+).

К семестрам


© Енькова Анна, 2017