1. Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды.

В задании рассматривается плазмида Rhodovulum sulfidophilum (штамм SNK001). Rhodovulum sulfidophilum — это фотосинтезирующая несерная пурпурная бактерия, найденная в морских прибрежных зонах Вишакхапа́тнама (города на юго-восточном побережье Индии). Эта бактерия может жить как в аэробных условиях в темноте, так и в анаэробных условиях на свету. Эта бактерия выпускает внутриклеточные макромолекулы, такие как ДНК и РНК, во внеклеточную среду, что приводит к формированию клеточных агрегатов, а сам процесс известен как флокуляция.

С помощью нижеследующих команд пакета EMBOSS была получена последовательность в форматах cp015422.gff и cp015422.fasta.

seqret embl:CP015422 -feature cp015422.gff
seqret embl:CP015422 cp015422.fasta

В итоговом файле .gff были сохраненны особенности, которые нужны для дальнейшей работы. Для извлечения информации о начале, конце, ориентации генов из файла .gff, использовали команду:

grep 'CDS' cp015422.gff | awk '{print $4,$5,$7}' >> genbank.txt

Был получен файл . Команда grep (акроним от search globally for lines matching the regular expression, and print them) находит в файле строки с паттерном CDS, затем awk (Это утилита для извлечения данных; awk читает за один раз одну строку, выполняет определенные действия в зависимости от заданных опций, и выводит результат. Одним из самых простых и популярных способов использования awk является выбор столбца из текстового файла или из вывода другой команды) находит 4-й, 5-й и 7-й столбцы gff-файла, где содержатся соответствующие координаты, и записывает в файл .

Далее, для предсказания генов в данной плазмиде, воспользовались алгоритмом Prodigal (Prokaryotic Dynamic Programming Genefinding Algorithm).

В командной строке задаем:

prodigal.windows.exe -i cp015422.fasta -f sco -o prodigal -s prodical_genes

Длина плазмиды в соответствии с полученными данными равна 113 522 п.о., что вполне приемлимо для полноценной работы Prodigal.

prodigal.fasta| sed "s/_/ /g" | awk '{print $2,$3,$4}'>> prodigal-1.out

Команда grep ищет строки, где содержится паттерн ">". Затем в найденных строках команда sed заменяет "_" на пробел: s (substitute) заменяет первое встреченное соответствие первому шаблону, на второй шаблон; g (global) гарантирует выполнение команды всеми найденными соответствиями внутри каждой из строк.

Полученные файлы для дальнейшей работы: genbank.out и prodigal-1.out.

Далее, с помощью скрипта, были оценены следующие показатели:

  • число и % генов, которые аннотированы в GenBank и для которых предсказание обоих концов гена с помощью Prodigalточно такое же;
  • число и % генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal;
  • число и % генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal;
  • число и % генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal

Комментарии к скрипту:

1) Скрипт запрашивает на вход три файла (любых) (в нашем случае мы даем на вход файлы GenBank и Prodigal с координатами и файл с результатами) и создает два списка genbank (+ по 2 списка с координатами С- и N-концов) и prodigal( с аналогичным набором списков), содержащих строки с координатами из исходных файлов.

2) После этого для каждой координаты N-конца в n_genbank ищется такая же координата в n_prodigal. Если она найдена, проверяется совпадает ли координата C-конца и в зависимости от ответа подсчитывается число совпадающих генов (если координаты совпадают) или генов с разными C-концами (у белка). Далее для каждой координаты С-конца в c_genbank ищется такая же в c_prodigal, так что соответствующие координаты N-концов не совпадают. Таким образом подсчитывается число генов с по-разному предсказанными N-концами белков.

3) Все результаты записываются в указанный файл - results.out.

Результаты предсказания Prodigal
Количество генов
Процент
Идентично предсказанные
75
80,65%
Только N- конец не совпадает
15
16,13%
Только С-конец не совпадает
1
1,08%
Оба конца не совпадают
6
~3%

Примеры, когда аннотация на одном из концов гена не совпала.

1) Ген предсказанный в Genbank, не найденный Prodigal: координаты 66 546-66 292 (-). Аннотация к данному гену в Genbank "Derived by automated computational analysis using gene prediction method: GeneMarkS+". Исходя из вышесказанного, сложно сказать является ли анатированный ген в gb правомерным в полной мере.

2) Пример расхождения предсказаний. Рассмотрим ген с координатами 5012-6868, аннотированный в Genbank.

N-конец этого гена в Prodigal аннотирован с 5006 позиции, где также наблюдается кодон ATG.