Самостоятельная работа

Предсказание генов


Дано: неаннотированный учаток генома бактерии Ornithinibacillus scapharcae (штамм TW25).
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии Bacillus subtilis (сенной палочки).

Короткое описание последовательности действий.
Выполнены команды:

Данные Название файла Получение
Полный протеом B. Subtilis bs.fasta seqret sw:*_BACSU bs.fasta
База данных для BLAST bs.phr, bs.pin, bs.psq makeblastdb -in bs.fasta -bdtype prot
Фрагмент генома oc.fasta seqret sw:AEWH01000012 oc.fasta -sask {Далее вырезаю с 49001 по 56000}
Выдача getorf oc.orf getorf oc.fasta -minsize 240 -find 1 -table 11
Выдача BLAST blastp.txt blastp -query oc.orf -outfmt 7 -db bs -out blastp.txt -evalue 0.001
Список рамок names.txt grep ">" oc.orf
Последовательность использованных команд в отдельном файле script.txt -

Нашлось 12 рамок на выдаче getorf. Для поиска blastp были созданы и использованы базы данных.
В результате работы получена таблица:

Название в oc.orf Начало во фрагменте Конец во фрагменте Направление Число сходных последовательностей Лучшая находка E-value
>AEWH01000012_1 2291 2539 прямое 0 - -
>AEWH01000012_2 3932 4948 прямое 0 - -
>AEWH01000012_3 5434 6093 прямое 0 - -
>AEWH01000012_4 6342 6923 прямое 10 YHGD_BACSU 1e-58
>AEWH01000012_5 6116 5763 обратное 0 - -
>AEWH01000012_6 5775 5485 обратное 0 - -
>AEWH01000012_7 5750 5460 обратное 0 - -
>AEWH01000012_8 5262 5017 обратное 0 - -
>AEWH01000012_9 4577 4266 обратное 0 - -
>AEWH01000012_10 3645 2155 обратное 1 YCLF_BACSU 8e-163
>AEWH01000012_11 1847 1092 обратное 0 - -
>AEWH01000012_12 971 3 обратное 8 BBMA_BACSU 6e-42

Схематичное изображение гипотетических генов во фрагменте 49001 по 56000 записи AEWH01000012 (самые вероятное гомологи):

 5'----------------------------------------------------[=> yhgd, 6342-6923]-------------------3'

 3'---[<= bbma, 3-971]----[<= yclf, 2155-3645]------------------------------------------------5'

Наблюдения: перекрываний и аномалий в расположении сходных генов не наблюдается. Схожие гены расположены на довольно большом расстоянии друг от друга. Интересно, что распределении выдачи blast по рамкам не равномерное: к некоторым рамкам нашлось много гомологов (десять для четвертой и восемь для двенадцатой), к другим - ни одного или один в случае десятой рамки. Это свидетельствует о том, что выдача getorf содержит достоверные рамки, кодирующие реальные белки, на которые нашлись гомологи.

Главная страница
© Галицына Александра, 2011