На главную страницу третьего семестра

Предсказание генов во фрагменте генома бактерии Yersinia bercoviery


Целью работы была обработка неаннотированного фрагмента генома бактерии Yersinia bercovieri, в результате которой можно предсказать гены.

Исследуемый фрагмент генома бактреии Yersinia bercoviery был получен при задании следующей командной строки:

seqret /home/export/samba/public/tmp/yb.fasta:AALC01000084 -sask

Затем данный фрагмент был транслирован в шести рамках считывания:

getorf -sequence my.fasta -minsize 240 -table 11 -find 1 -outseq res_orf.fasta

Для поиска гомологов был создан файл со всеми белковыми последовательностями Enterobacteriales:

seqret sw-orp:Enterobacteriales

Output sequence я задала enterobact.fasta , на базе которого я в дальнейшем создала индексные файлы:
formatdb -i enterobact.fasta -p T -n entbac


ТАБЛИЦА 1.Аннотация участка AALC01000084 с 4001 по 8000 нуклеотид бактериального генома
Начало во фрагменте Конец во фрагменте Направление Число сходных последовательностей среди последовательностей Enterobacteriales из банка SwissProt, найденных программой BLASTP при задании E-value<0,01
4 282 прямое 1
224 2998 прямое 13
2998 3657 прямое 29
3224 2973 обратное 0


Далее я привожу скрипт,который был создан для автоматизации работы. Этот скрипт выдает число найденных гомологов для 4 записей из файла res_orf.fasta.

seqret res_orf.fasta:AALC01000084_1 stdout | blastall -p blastp -d entbac -e 0.01 | grep ">" -c >res.txt

seqret res_orf.fasta:AALC01000084_2 stdout | blastall -p blastp -d entbac -e 0.01 | grep ">" -c >>res.txt

seqret res_orf.fasta:AALC01000084_3 stdout | blastall -p blastp -d entbac -e 0.01 | grep ">" -c >>res.txt

seqret res_orf.fasta:AALC01000084_4 stdout | blastall -p blastp -d entbac -e 0.01 | grep ">" -c >>res.txt

После анализа полученных данных была построена схема
4------->282
         224------------------------->2998
                                      2998------->3657                 
                                             3224<-----2973

Видно, что имеется аномалия( перекрывание генов).Так как число сходных последовательностей на последнем фрагменте равно 0 и первые два фрагмента перекрываются, а число сходных последовательностей сравнительно с 29 в третьем случае невелико, то я предлагаю следующую схему
4---------->2998
                 2998------->3657
 
                                            

© Андреева Мария аka mashik, 2005