Получим фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с началом 77001 и длинной 7000 нуклеотидов
seqret -sask
Получаем файл
sequence.fasta с необходимой последовательностью
1. Получим полный протеом B. subtilis из Swiss-Prot:
seqret sw:*_bacsu
Создадим файлы для поиска программами пакета BLAST:
makeblastdb -in 2npd_bacsu.fasta -dbtype prot -out bs
2. Извлечем из нашего участка генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (-minisize 240).
Также используем стандартный для бактерий (bacterial) генетический код (-table 11), открытой рамкой считаем последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-find 1):
getorf sequence.fasta -find 1 -table 11 -minisize 240 -out AEWH01000012.orf
3. Создадим
книгу Excel, включающую информацию обо всех открытых рамках считывания. Для каждой рамки укажем начало, конец, направление на цепи, число сходных последовательностей, найденных программой BLAST в протеоме B. subtilis при условии E-value<0,001.
Для подсчета числа гомологов воспользуемся BLASTP:
blastp -db bs -query result.orf -outfmt 6 -evalue .001 > bs.txt
Напишем
скрипт, посчитаем количество гомологов, получили
результат
Запишем все данные в таблицу
Excel
4. Рамки, для которых нашлась хотя бы одна сходная последовательность
Рамка |
Начало во фрагменте |
Конец во фрагменте |
Направление |
Количество находок BLASTP |
Идентификатор гомолога |
E-value находки |
AEWH01000012_2 |
3666 |
4541 |
прямое |
1 |
YITL_BACSU |
2e-69 |
AEWH01000012_3 |
5551 |
6750 |
прямое |
4 |
GLTT_BACSU |
4e-77 |
AEWH01000012_10 |
3078 |
2329 |
обратное |
2 |
YDHC_BACSU |
3e-08 |
AEWH01000012_11 |
1267 |
332 |
обратное |
2 |
DAPA_BACSU |
1e-63 |
AEWH01000012_12 |
316 |
2 |
обратное |
7 |
ALDH4_BACSU |
1e-18 |
5. Схематическое изображение положения на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в B. subtilis:
5'---------------------------------------------------------[YITL,3666-4541]------[GLTT,5551-6750]----3'
3'[ALDH4,2-316]-[DAPA,332-1267]------[YDHC,2329-3078]------------------------------------------------5'
Перекрываний нет, все открытые рамки могут одновременно считаться генами, причем расстояние от рамки 316-2 до рамки 1267-332 слишком маленькое (16 нуклеотидов), поэтому это может быть одним геном.
6. Сравним взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки.
Смотрим
на запись о геноме B. subtilis Видим, что гены находятся на очень далеком расстоянии друг от друга (по координатам). Поэтому гены не консервативны