Личный сайт
Просвирова Кирилла

Предсказание генов у прокариот

ORF Finder

В качестве исходного материала был выдан континг микробиома кардиального отдела желудка валлаби - контиг. Первой была использована программа ORF Finder на сайте NCBI.

Рис. 1. Вывод программы ORF Finder для выданного мне контига.

Как видно, найдено много котингов длиной более 60 а.о., то есть более 180 нуклеотидов. Далее без каких-либо изменений был проведен бласт всех последовательностей.
Начало15271926531185
Конец27386839881466
Длина в а.о.40316311193
Цепь++++
ОписаниеЦистиен десульфуразаРибосомальный белок L11 - метилтрансфераза 16S рРНК метилтрансфераза16S рРНК метилтрансфераза

Таблица 1. Результаты анализа ORF Finder + Blast.

При бласте были использованы следующие параметры: E-value < 0.001, Coverage > 80%, база - SwissProt.
В итоге, две рамки, первая и четвертая, дали очень хорошие результаты в Blastе, при это эти рамки не перекрываются. Исходя из этого, можно говорить о том, что в выданном мне контиге содержатся 2 гена. Результаты бласта первой рамки в файле файл. Результаты бласта четвертой рамки в файле файл. Там описаны последовательности бактерий, идентификаторы и названия организмов.Белки - цистеин-десульфураза и метилтрансфераза. Даже можно сказать о том, что за бактерия это была, так как первые совпадения в двух бластах одинаковые - Firmicuts bacterium .

Рис. 2. Часть результатов бласта четвертой рамки.

GeneMark

Далее была использована программа GeneMark для поиска рамок.

Рис. 3. Часть кодирующего потенциала GeneMark с параметрами 1999 г.

Полностью потенциал можно посмотреть в файле .
	GeneMark.hmm PROKARYOTIC (Version 3.25)
Date: Mon Nov 17 13:49:51 2014
Sequence file name: seq.fna
Model file name: /home/genemark/bin/gmsuite/heu_11.mod
RBS: false

Model information: Heuristic_model_for_genetic_code_11_and_GC_55

FASTA definition line: empty-fasta-def-line
Predicted genes
   Gene    Strand    LeftEnd    RightEnd       Gene     Class
    #                                         Length
    1        +          <3         683          681        1
    2        +         701         988          288        1
    3        +        1185        1466          282        1
    4        +        1527        2738         1212        1
    5        +        2821       >2940          120        1

Текстовый вывод GeneMark

Теперь можно наглядно сравнить предсказания. Первая находка GM (сокр. GeneMark) почти совпадает с 4 ORF из OF, за исключением смещения. Вторая совпадает с 8, но смещенная. Третья полностью совпадает с 12 из OF, но Blast не подтверждает эти данные. Четвертая совпадает с 1 из OF, для неё Blast дает множество гомологов. И наконец пятая совпадает с 17 полностью, но Blast не находит гомологов в принципе. В итоге, если анализировать оба подхода, то они практически совпадают в рамках первой и четвертой, которые действительно, согласно бласту, содержат белки.
Номер находки в GeneMark12345
Номер находки в OF4812117
Координаты в GeneMark<3...683701...9881185...14661527...2738 2821....>2940
Координаты в OF192...683653...9881185...14661527...27382821...2939
Совпадение по 10-ти балльной шкале68101010

Изменение параметров GeneMark

	GeneMark.hmm PROKARYOTIC (Version 3.25)
Date: Mon Nov 17 14:12:13 2014
Sequence file name: seq.fna
Model file name: /home/genemark/bin/gmsuite/MetaGeneMark_v1.mod
RBS: false

Model information: Heuristic_model_for_genetic_code_11_and_GC_55

FASTA definition line: empty-fasta-def-line
Predicted genes
   Gene    Strand    LeftEnd    RightEnd       Gene     Class
    #                                         Length
    1        +          <3         683          681        1
    2        +         701         988          288        1
    3        +        1185        1466          282        1
    4        +        1515        2738         1224        1
    5        +        2821       >2940          120        1

Текстовый вывод GeneMark

Выходной файл: файл.

Рис. 4. Часть кодирующего потенциала для GeneMark с параметрами 2010 г.

Исходя из выводов, видно, что в результате лишь съехало начало 4 рамки на 12 нуклеотидов, а все остальное осталось, как и было.


Просвиров Кирилл. Дата последнего изменения: 4 октября 2014.