Самостоятельная работа по предсказанию генов


Получим фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с началом 77001 и длинной 7000 нуклеотидов
seqret -sask
Получаем файл sequence.fasta с необходимой последовательностью

1. Получим полный протеом B. subtilis из Swiss-Prot:
seqret sw:*_bacsu
Создадим файлы для поиска программами пакета BLAST:
makeblastdb -in 2npd_bacsu.fasta -dbtype prot -out bs

2. Извлечем из нашего участка генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (-minisize 240).
Также используем стандартный для бактерий (bacterial) генетический код (-table 11), открытой рамкой считаем последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-find 1):
getorf sequence.fasta -find 1 -table 11 -minisize 240 -out AEWH01000012.orf

3. Создадим книгу Excel, включающую информацию обо всех открытых рамках считывания. Для каждой рамки укажем начало, конец, направление на цепи, число сходных последовательностей, найденных программой BLAST в протеоме B. subtilis при условии E-value<0,001.
Для подсчета числа гомологов воспользуемся BLASTP:
blastp -db bs -query result.orf -outfmt 6 -evalue .001 > bs.txt
Напишем скрипт, посчитаем количество гомологов, получили результат
Запишем все данные в таблицу Excel

4. Рамки, для которых нашлась хотя бы одна сходная последовательность
Рамка Начало во фрагменте Конец во фрагменте Направление Количество находок BLASTP Идентификатор гомолога E-value находки
AEWH01000012_2 3666 4541 прямое 1 YITL_BACSU 2e-69
AEWH01000012_3 5551 6750 прямое 4 GLTT_BACSU 4e-77
AEWH01000012_10 3078 2329 обратное 2 YDHC_BACSU 3e-08
AEWH01000012_11 1267 332 обратное 2 DAPA_BACSU 1e-63
AEWH01000012_12 316 2 обратное 7 ALDH4_BACSU 1e-18



5. Схематическое изображение положения на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в B. subtilis:



5'---------------------------------------------------------[YITL,3666-4541]------[GLTT,5551-6750]----3'

3'[ALDH4,2-316]-[DAPA,332-1267]------[YDHC,2329-3078]------------------------------------------------5'

Перекрываний нет, все открытые рамки могут одновременно считаться генами, причем расстояние от рамки 316-2 до рамки 1267-332 слишком маленькое (16 нуклеотидов), поэтому это может быть одним геном.

6. Сравним взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки.
Смотрим на запись о геноме B. subtilis Видим, что гены находятся на очень далеком расстоянии друг от друга (по координатам). Поэтому гены не консервативны