Отчет по практикуму 11. Предсказание генов прокариот. Дополнительное задание.

На этой странице выложен отчет по дополнительному заданию из практикума 11.

Задание 2. Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды.

1. С помощью команды
 
 seqret -sequence embl:CP000627 -outseq gff::v.gff -feature 
был скачан файл v.gff, содержащий плазмиду CP000627 в формате gff. При этом в итоговом файле a.gff были сохранены особенности (features) с помощью квалификатора -features, так как они понадобятся для дальнейшей работы. Затем с помощью команды
 seqret -sequence embl:CP000627 -outseq fasta::v.fasta -feature 
был скачан файл v.fasta, содержащий плазмиду CP000627 в формате fasta.
2.
3. С использованием программмы Prodigal было получено предсказание координат генов. Оно было получено с помощью команды:
prodigal.windows.exe -i v.fasta -o prodigal.fasta -f sco 
было получено предсказание генов программой prodigal для данной плазмиды. При этом был выбран (-f sco) минималистичный формат sco для записи результата: prodigal.fasta. Из обоих файлов координаты генов (начало, конец, ориентация, разделенные символом '_') были записаны в отдельные файлы с помощью команд:
grep CDS v.gff | cut -f 4,5,7 --output-delimiter='_'> v.out
grep '>' prodigal.fasta | cut -f 2,3,4 -d '_' > prodigal.out   
Полученные файлы с координатами: prodigal.out, v.out. В записи Genbank записан 2744 ген, программа Prodigal предсказала 2694 гена. 4. Далее был создан скрипт a.py, с помощью которого были оценены количественно следующие показатели:
- Число и % генов, которые аннотированы в GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же;
- Число и % генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal;
- Число и % генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal;
- Число и % генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal.
Примечание: Процент считался от общего числа предсказанных Prodigal генов, так как их было больше аннотированных в GenBank'е генов.
4. Далее вручную с сайта NCBI были скачаны файлы ecoli.fasta и ecoli.gff.
5. С использованием программмы Prodigal было получено предсказание координат генов. Оно было получено с помощью команды:
prodigal.windows.exe -i ecoli.fasta -o prodigal_ecoli.fasta -f sco 
было получено предсказание генов программой prodigal для данной плазмиды. При этом был выбран (-f sco) минималистичный формат sco для записи результата: prodigal_ecoli.fasta. Из обоих файлов координаты генов (начало, конец, ориентация, разделенные символом '_') были записаны в отдельные файлы с помощью команд:
             
   grep CDS ecoli.gff3 | cut -f 4,5,7 --output-delimiter='_'> ecoli.out                                                                                                
   grep '>' prodigal_ecoli.fasta | cut -f 2,3,4 -d '_' > prodigal_ecoli.out   
Полученные файлы с координатами: prodigal_ecoli.out, ecoli.out. В записи Genbank записан 2744 ген, программа Prodigal предсказала 2694 гена. 4. Далее был создан скрипт b.py, с помощью которого были оценены количественно следующие показатели:
- Число и % генов, которые аннотированы в GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же;
- Число и % генов, для которых аннотация только N-конца белка не совпадает - Число и % генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal;
- Число и % генов, для ODY> Примечание: Процент считался от общего числа предсказанных Prodigal генов, так как TML> их было больше аннотированных в GenBank'е генов.

6. Результаты для Vibrio Cholerae и E. Coli.


ОрганизмЧисло генов, которые аннотированы в БД GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же Процент генов, которые аннотированы в БД GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же Число генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal Процент генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal Число генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal Процент генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal Число генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal Процент генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal
Vibrio cholerae92633,31%40014,39%427 15,36%102736,94%
E. coli186836,82%2414,75%92618,25%203840,17%

7. Выводы.


Результаты довольно схожие. Поскольку E. Coli является модельным организмом, то можно было бы ожидать от Prodigal более высокой точности предсказания, что и наблюдается, так как доля предсказанных верно генов выше, но различие меньше, чем можно было бы ожидать. Возможно это объясняется, тем, что у E. Coli больше длина генома. Этот факт объясняет, почему доля предсказанных полностью неверно генов у E. Coli немного выше. Также Vibrio cholerae явлется хорошо зученным организмом, как и E. Coli, что объсняет малую разницу данных.