Предсказание генов прокариот.
Для выполнения данного задания мне была дана плазмида Frondihabitans sp. PAMC 28766.
Таксономия: Bacteria; Actinobacteria; Micrococcales; Microbacteriaceae; Frondihabitans.
Аэробные бактерии (штамм E1HC-02(T)), был выделен из разлагающихся опавших листьев тропического леса на юго-востоке
штата Квинсленд на северо-востоке материковой части Австралии.Клетки штамма E1HC-02 (Т) - короткие палочки (0,5-1,0 х 0,2-0,4 Microm),
которые окрашивали грамположительные и обладавшие клеточной стенкой ультраструктуры которые, были изготовлены из белковых субъединиц.
|
Сначала с помощью команд:
seqret embl:CP015748 fasta::cp014516.fasta
seqret embl:CP015748 gff::cp014516.gff -feature
была скачана последовательность выданной мне плазмиды в двух форматах:
cp014516.fasta и
cp014516.gff. При этом в итоговом файле .gff были сохранены
особенности (features) с помощью квалификатора -features, т.к. они понадобятся
для дальнейшей работы.
Затем с помощью Prodigal были предсказаны гены в данной плазмиде.
prodigal.exe -i cp015748.fasta -o prodigal.fasta -f sco
При этом был выбран (-f sco) минималистичный формат sco для записи
результата: prodigal.fasta.
Из обоих файлов координаты генов (начало, конец, ориентация, разделенные символом
'_') были записаны в отдельные файлы с помощью команд:
grep CDS cp015748.gff | cut -f 4,5,7 --output-delimiter='_'> genbank.out
grep '>' prodigal.fasta | cut -f 2,3,4 -d '_' > prodigal.out
Полученные файлы с координатами: prodigal.out,
genbank.out.
Затем я создала скрипт pr11.py, с помощью которого были
оценены следующие показатели:
- число и % генов, которые аннотированы в GenBank и для которых
предсказание обоих концов гена с помощью Prodigal точно такое
же;
- число и % генов, для которых аннотация только С-конца белка не
совпадает с аннотацией Prodigal;
- число и % генов, для которых аннотация только N-конца белка не
совпадает с аннотацией Prodigal;
- число и % генов, для которых аннотация обоих концов не совпадает с
аннотацией Prodigal.
Описание работы скрипта:
1) Скрипт запрашивает на вход названия 3х файлов (GenBank, Prodigal, файл для результатов)
и создает 2 списка: genbank и prodigal, содержащие строки с координатами из исходных файлов (символ разделитель- '_').
2) Потом для каждого из списков из пункта 1 создаются по два списка с координатами C- и N-концов.
Проверяется ориентация гена ('+' или '-'). В зависимости от этого в качестве координаты N-конца (C-конца) в случае '+'
берется первая (вторая) координата, в случае '-' соответственно наоборот. Получаем 4 списка с координатами концов.
3) После этого для каждой координаты N-конца в n_genbank ищется такая же координата в n_prodigal.
Если она найдена, проверяется совпадает ли координата C-конца и в зависимости от ответа подсчитывается
число совпадающих генов (если координаты совпадают) или генов с разными C-концами (у белка).
Далее для каждой координаты С-конца в c_genbank ищется такая же в c_prodigal, так что соответствующие
координаты N-концов не совпадают.
Таким образом подсчитывается число генов с по-разному предсказанными N-концами белков.
4) Все результаты записываются в указанный файл (в нашем случае это был файл results.out) для удобства.
Таблица 1. Полученные результаты сравнения предсказаний
генов
Число генов с одинаково предсказанными концами |
29 (37,66%) |
Число генов с по-разному предсказанными C-концами |
5 (6,49%) |
Число генов с по-разному предсказанными N-концами |
25 (32,47%) |
Число предсказанных Prodigal генов, не аннотированных в
Genbank
|
18 (23,38%) |
Число не предсказанных Prodigal генов, аннотированных в
Genbank |
11 |
Общее число предсказанных Prodigal генов |
77 |
Общее число аннотированных в GenBank генов |
63 |
Таким образом, Prodigal для 29 генов предсказал координаты концов так же, как
они аннотированы в GenBank (37,66%). Как мне кажется, это довольно низкий
процент. Тем не менее, только один ген, аннотированный в GenBank, не был
найден этой программой, хоть и для многих из них концы были предсказаны
по-другому.
Пример 1. Не найденный Prodigal ген, аннотированный в Genbank.
Ген имеет координаты 50103-50339 (-). Имеются старт-кодон (ATG) и стоп-кодон (TGA) гена, который предсказал
Prodigal.
Рис. 2.
Анализируемый ген (зеленый) |
В записи Genbank в строке "product" в аннотации данного гена указана
"transposase", которая уже обсуждалась в предыдущем практикуме. При этом в "note"
указано: "... Derived by automated
computational analysis using gene prediction method: Protein Homology".
Prodigal, в свою очередь, на этом участке предсказал только один ген, который короче аннотированного в Genbank.
На мой взгляд Prodigal ошибается. Проверить это можно с помощью Blast.
Пример 2. В качестве второго примера расхождения предсказаний рассмотрим
ген с координатами 67196-68422(-) в Genbank и 67115-68422(-), предсказанными
Prodigal (т.е. программа определила N-конец по-другому).
Рис. 3.
Аннотация обсуждаемого гена в записи GenBank
|
На рис.3 приведена аннотация гена в Genbank. В данном случае в качестве
продукта указан "plasmid partitioning protein RepB". Способ предсказания тот же
самый.
Plasmid partition proteins — белки, составляющие систему
разделения у плазмид RepABC, обеспечивающую их стабильность и репликацию. В систему
входят белки RepA, RepB, и центромеро-подобный белок parS. Мутации в этих белках
могут сильно уменьшить стабильность плазмид4.
Как мне кажется, в этом случае стоит верить Genbank'у, т.к.
описанные белки должны быть довольно консервативными. Для того, чтобы это проверить,
для аннотированного гена тоже был запущен BLAST. В итоге
было найдено 13 сходных последовательностей, из которых для 10 покрытие составляет
99-100%. Находки аннотированы также. Что
касается гена, найденного Prodigal, то для
него результаты поиска BLAST выдали те же находки,
но с немного отличающимися параметрами. При этом найденные последовательности
были частью соответствующих аннотированных генов (тоже кодирующих RepB). Таким
образом, тут программа тоже ошиблась, но уже в определении N-конца.
|
© Mishchenko Polina 2016