Дано: неаннотированный учаток генома бактерии Ornithinibacillus scapharcae (штамм TW25).
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии Bacillus subtilis (сенной палочки).
Короткое описание последовательности действий.
Выполнены команды:
Данные | Название файла | Получение |
Полный протеом B. Subtilis | bs.fasta | seqret sw:*_BACSU bs.fasta |
База данных для BLAST | bs.phr, bs.pin, bs.psq | makeblastdb -in bs.fasta -bdtype prot |
Фрагмент генома | oc.fasta | seqret sw:AEWH01000012 oc.fasta -sask {Далее вырезаю с 49001 по 56000} |
Выдача getorf | oc.orf | getorf oc.fasta -minsize 240 -find 1 -table 11 |
Выдача BLAST | blastp.txt | blastp -query oc.orf -outfmt 7 -db bs -out blastp.txt -evalue 0.001 |
Список рамок | names.txt | grep ">" oc.orf |
Последовательность использованных команд в отдельном файле | script.txt | - |
Нашлось 12 рамок на выдаче getorf. Для поиска blastp были созданы и использованы базы данных.
В результате работы получена таблица:
Название в oc.orf | Начало во фрагменте | Конец во фрагменте | Направление | Число сходных последовательностей | Лучшая находка | E-value |
>AEWH01000012_1 | 2291 | 2539 | прямое | 0 | - | - |
>AEWH01000012_2 | 3932 | 4948 | прямое | 0 | - | - |
>AEWH01000012_3 | 5434 | 6093 | прямое | 0 | - | - |
>AEWH01000012_4 | 6342 | 6923 | прямое | 10 | YHGD_BACSU | 1e-58 |
>AEWH01000012_5 | 6116 | 5763 | обратное | 0 | - | - |
>AEWH01000012_6 | 5775 | 5485 | обратное | 0 | - | - |
>AEWH01000012_7 | 5750 | 5460 | обратное | 0 | - | - |
>AEWH01000012_8 | 5262 | 5017 | обратное | 0 | - | - |
>AEWH01000012_9 | 4577 | 4266 | обратное | 0 | - | - |
>AEWH01000012_10 | 3645 | 2155 | обратное | 1 | YCLF_BACSU | 8e-163 |
>AEWH01000012_11 | 1847 | 1092 | обратное | 0 | - | - |
>AEWH01000012_12 | 971 | 3 | обратное | 8 | BBMA_BACSU | 6e-42 |
Схематичное изображение гипотетических генов во фрагменте 49001 по 56000 записи AEWH01000012 (самые вероятное гомологи):
5'----------------------------------------------------[=> yhgd, 6342-6923]-------------------3' 3'---[<= bbma, 3-971]----[<= yclf, 2155-3645]------------------------------------------------5'
Наблюдения: перекрываний и аномалий в расположении сходных генов не наблюдается. Схожие гены расположены на довольно большом расстоянии друг от друга. Интересно, что распределении выдачи blast по рамкам не равномерное: к некоторым рамкам нашлось много гомологов (десять для четвертой и восемь для двенадцатой), к другим - ни одного или один в случае десятой рамки. Это свидетельствует о том, что выдача getorf содержит достоверные рамки, кодирующие реальные белки, на которые нашлись гомологи.