Test in gene predicting

Задание

Получить фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с заданным началом, длиной 7000 нуклеотидов. Определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Bacillus subtilis.

0. Получим фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с началом 147001, длиной 7000 нуклеотидов:
seqret -sask
Получаем файл kusok.fasta с пробной последовательностью.

1. Получим полный протеом B. subtilis получите из Swiss-Prot:
seqret sw:*_bacsu
Создим индексные файлы для поиска программами пакета BLAST:
makeblastdb -in 2npd_bacsu.fasta -dbtype prot -out bs
2. Извлечем из пробного участкгенома генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (-minsize 240). При этом используем стандартный для бактерий (bacterial) генетический код (-table 11), открытой рамкой считаем последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-find 1):
getorf kusok.fasta -find 1 -table 11 -minsize 240 -out orfresult.fasta
3. Создадим книгу Excel, включающую информацию обо всех открытых рамках считывания в пробном фрагменте генома. Для каждой рамки укажем: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных программой BLAST в протеоме B. subtilis при условии E-value<0,001.
grep ">" orfresult.fasta | sed -e "s/>//" -e "s/\[//" -e "s/\]//" -e "s/- //" -e "s/ AE.*//"
 -e "s/AE.*_//" -e "s/(REVERSE SENSE)/reverse/" > orf.txt
Содержимое получившегося текстового файла копируем в таблицу Exel и форматируем средствами Exel.
Для подсчета числа гомологов воспользуемся BLASTP:
blastp -db bs -query orfresult.fasta -outfmt 6 -evalue .001  > blastp.txt
blastp.txt - выходной файл
Количество гомологов каждой последовательности посчитаем:
for i in {1..14}; do grep -Pc "AEWH01000006_$i\t" blastp.txt; done > count.txt
4. Рамки, для которых нашлась хотя бы одна сходная последовательность:
Рамка Начало во фрагменте Конец во фрагменте Направление Количество находок BLASTP Идентификатор гомолога E-value находки
AEWH01000006_1 28 894 straight 4 YEAB_BACSU 2e-86
AEWH01000006_7 7001 6525 reverse 1 AZLC_BACSU 9e-08
AEWH01000006_9 5899 4676 reverse 1 METK_BACSU 7e-130
AEWH01000006_10 4673 3180 reverse 3 SPEA_BACSU 3e-104
AEWH01000006_11 3184 2744 reverse 1 SPEH_BACSU 4e-31
AEWH01000006_12 2768 1893 reverse 1 SPEE_BACSU 3e-55
AEWH01000006_13 1900 1043 reverse 3 SPEB_BACSU 1e-78

5. Схематическое изображение положения на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в B. subtilis:
pic

5'-[YEAB,28-894]---------------------------------------------------------------------------------------------------3'

3'---------------[SPEB,1043-1900][SPEE,1893-2768][SPEH,2744-3184][SPEA,3180-4673]-[METK,4676-5899]-[AZLC,6525-7001]5'
Видим, что много перекрываний, что означает, что не все эти гены есть гены, а просто совпадающие последовательности. Хотя перекрывание генов бывает, кстати.

6. Сравним взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки. Смотрим на запись о геноме B. subtilis и увидим, что гены, которые предположительно есть во фрагменте в геноме находятся очень далеко друг от друга (судим по координатам). Поэтому, гооврить о консервативности не приходится. радуемся, что ничего не надо объяснять


Наверх