Предсказание генов прокариот
Сравнение предсказаний генов в базе данных GenBank и по данным
Prodigal для плазмиды
Для выполнения задания мне была дана плазмида Pediococcus damnosus strain
TMW 2.1533, длина которой составляет 39658 bp (идентификатор CP012282).
Morphology of Pediococcus damnosus
Pediococcus damnosus – грам-положительные бактерии, встречающиеся в
кисломолочных продуктах, фруктах и пр. растительном материале. Pediococcus
damnosus являются облигатными анаэробами, метаболизирующими сахара из
углеводов и таким образом вызывающими брожение.
Систематика:
Домен: Bacteria
Тип: Firmicutes
Класс: Bacilli
Порядок: Lactobacillales
Семейство: Lactobacillaceae
Род: Pediococcus
Геном Pediococcus damnosus имеет следующие характеристики:
Сначала была скачана последовательность выданной мне плазмиды в двух
форматах:
(.fasta
) и
(.gff
). При этом в итоговом файле (.gff) были сохранены особенности (features) с
помощью квалификатора -features, т.к. они понадобятся для дальнейшей
работы.
команды:
seqret embl:CP012282 fasta::cp012282.fasta
seqret embl:CP012282 gff::cp012282.gff –feature
Полученные файлы:
cp012282.fasta
и
cp012282.gff
Дальнейшая работа была тесно сопряжена с Microsoft Excel.
Файл с таблицей особенностей в формате (.gff), скачанный при помощи EMBOSS,
был открыт в Microsoft Excel и почищен (была удалена "шапка" сверху и
последовательность белка снизу (все после строки ##FASTA включительно)),
после чего был и отсортирован по CDS и gene.
На отдельный лист (с названием «обрезанный») были скопированы только
записи, соответствующие CDS, после чего все столбцы, кроме соответствующих
началу, концу и направлению гена, были удалены.
Затем с помощью Prodigal были предсказаны гены в данной плазмиде.
команда: prodigal.windows.exe -i cp012282.fasta -o cp012282_gene -f sco
комментарий: -i входной файл в формате .fasta, -o выходной файл
При этом для записи результата был выбран (-f sco) формат sco
полученный файл:
cp012282_gene.pro
После чего предсказание Prodigal в формате sco был импортирован в Excel и
скопирован в отдельный лист отчетной книги (с названием «prodigal»). При
импорте в качестве разделителя использовался символ нижнего подчеркивания
"_".
Затем на лист «сравнение» были скопированы только столбцы, соответствующие
началу, концу и направлению гена, из листов с названием «обрезанный» и
«prodigal»
Далее был проведен сравнительный анализ предсказания Prodigal и
аннотации GenBank
Для поиска значений в таблице была использована функция ВПР
Функция ВПР (вертикальный просмотр) ищет значение в крайнем левом столбце
исследуемого диапазона, а затем возвращает результат из ячейки, которая
находится на пересечении найденной строки и заданного столбца.
Ее синтаксис:
ВПР(искомая ячейка; таблица где искать; столбец; ЛОЖЬ/ИСТИНА)
!Поиск значений из искомой ячейки осуществляется в первом столбце заданной
таблицы.
Для подсчета числа значений были использована функция СЧЁТЕСЛИ.
Пришлось сделать несколько вспомогательных столбцов.:
колонка 1: для не совпал ни N-конец, ни С-конец
колонка 2: для каждого С-конца в аннотации Genbank получить информацию о
том, находится ли такой С-конец в аннотации Prodigal и вывести его;
колонка 3: для каждого N-конца в аннотации Genbank получить информацию о
том, находится ли такой N-конец в аннотации Prodigal и вывести его;
колонка 4: для каждого начала в аннотации Genbank, если оно находится в
Prodigal, вывести конец из аннотации Prodigal;
колонка 5: сравнить, совпадает ли конец из аннотации Prodigal в колонке 4 и
конец в аннотации Genbank;
*(подсчет чисел из колонки 5 = число совпадающих полностью генов);
колонка 6 : проверка, действительно ли это начало является стартом
трансляции белка? (учет направления);
Далее были подсчитаны интересующие нас значения:
число и % генов, которые аннотированы в GenBank и для которых предсказание
обоих концов гена с помощью Prodigal точно такое же;
число и % генов, для которых аннотация только N-конца белка не совпадает с
аннотацией Prodigal;
число и % генов, для которых аннотация только С-конца белка не совпадает с
аннотацией Prodigal;
число и % генов, для которых аннотация обоих концов не совпадает с
аннотацией Prodigal.
Примечание: процент считался от суммы всех возможных вариантов
совпадения/несовпадения предсказания Prodigal; (т.е. мы просто суммируем:
гены с не совпавшими N-концами + гены с не совпавшими С-концами + гены не
совпавшими полностью + гены, совпавшие обоими концами).
Результаты были представлены в виде диаграммы
Сравнение
|
Число генов с одинаково предсказанными концами
|
42
|
Число генов с по-разному предсказанными C-концами
|
16
|
Число генов с по-разному предсказанными N-концами
|
12
|
Общее число предсказанных Prodigal генов
|
68
|
Общее число аннотированных в GenBank генов
|
61
|
Таким образом, для 42 генов Prodigal предсказал координаты концов так же,
как они аннотированы в GenBank (53%). Как мне кажется, это довольно
невысокий процент.
Далее будут рассмотрены примеры для конкретных предсказаний, когда
аннотация на одном из концов гена не совпала. Попытаемся объяснить причину
несовпадения.
Например, рассмотрим ген с координатами: 22324-22833 (+), который Prodigal
предсказал так: 22315-22833 (+). Это ген, кодирующий по таблице
генетического кода 11 nicking enzyme TraA.
Если использовать параметр -s в программе Prodigal, который позволяет
записать в
файл
все варианты предсказания гена, но то можно убедиться, что правильный
вариант предсказания там тоже присутствует, но с немного меньшим весом
(44.01 у 22324-22833 против 56.11 у 22315-22833)
команда: prodigal.windows.exe -i cp012282.fasta -s cp012282_full
полученный файл: cp012282_full
Исследуемый ген (зеленым выделен аннотированный в Genbank старт-кодон
(N-конец), лиловым – предсказанный Prodigal).
Как видно стартовый кодон тоже отличается, притом у предсказания
22324-22833, аннотированного в Genbank, старт-кодон более распространенный
(ATG против GTG у Prodigal), возможно, поэтому этот ген аннотирован в
Genbank именно так.
Так как предсказание для Genbank выполнялось другой программой
(GeneMarkS+), что видно из рисунка выше, сложно однозначно сказать, что
послужило причиной такого выбора.
Аналогично был не верно предсказан ген 28823.. 30371 (+) [как 29799.. 30371
(+)]. Этот ген кодирует TetR family transcriptional regulator
[Lactobacillaceae] ( WP_056986435.1
), тоже по таблице 11. И если вновь обратиться к файлу со всеми вариантами
предсказания генов, можно увидеть аналогичную картину: нужный ген с таким
же стартовым кодоном рассматривался, но был посчитан с меньшим весом (см.
рис. ниже).
Исследуемый ген (зеленым выделен аннотированный в Genbank старт-кодон
(N-конец), лиловым – предсказанный Prodigal).
В этом случае даже стартовые кодоны были одинаковы: ATG. (посм стоп-кодон)
Как видно, программа, использованная для предсказания, та же самая что и в
первом примере (GeneMarkS+).