Test in gene predicting |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ЗаданиеПолучить фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с заданным началом, длиной 7000 нуклеотидов. Определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Bacillus subtilis.0. Получим фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с началом 147001, длиной 7000 нуклеотидов:seqret -saskПолучаем файл kusok.fasta с пробной последовательностью. 1. Получим полный протеом B. subtilis получите из Swiss-Prot: seqret sw:*_bacsuСоздим индексные файлы для поиска программами пакета BLAST: makeblastdb -in 2npd_bacsu.fasta -dbtype prot -out bs2. Извлечем из пробного участкгенома генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (-minsize 240). При этом используем стандартный для бактерий (bacterial) генетический код (-table 11), открытой рамкой считаем последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-find 1): getorf kusok.fasta -find 1 -table 11 -minsize 240 -out orfresult.fasta3. Создадим книгу Excel, включающую информацию обо всех открытых рамках считывания в пробном фрагменте генома. Для каждой рамки укажем: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных программой BLAST в протеоме B. subtilis при условии E-value<0,001. grep ">" orfresult.fasta | sed -e "s/>//" -e "s/\[//" -e "s/\]//" -e "s/- //" -e "s/ AE.*//" -e "s/AE.*_//" -e "s/(REVERSE SENSE)/reverse/" > orf.txtСодержимое получившегося текстового файла копируем в таблицу Exel и форматируем средствами Exel. Для подсчета числа гомологов воспользуемся BLASTP: blastp -db bs -query orfresult.fasta -outfmt 6 -evalue .001 > blastp.txtblastp.txt - выходной файл Количество гомологов каждой последовательности посчитаем: for i in {1..14}; do grep -Pc "AEWH01000006_$i\t" blastp.txt; done > count.txt4. Рамки, для которых нашлась хотя бы одна сходная последовательность:
5. Схематическое изображение положения на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в B. subtilis: ![]() 5'-[YEAB,28-894]---------------------------------------------------------------------------------------------------3' 3'---------------[SPEB,1043-1900][SPEE,1893-2768][SPEH,2744-3184][SPEA,3180-4673]-[METK,4676-5899]-[AZLC,6525-7001]5'Видим, что много перекрываний, что означает, что не все эти гены есть гены, а просто совпадающие последовательности. Хотя перекрывание генов бывает, кстати. 6. Сравним взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки. Смотрим на запись о геноме B. subtilis и увидим, что гены, которые предположительно есть во фрагменте в геноме находятся очень далеко друг от друга (судим по координатам). Поэтому, гооврить о консервативности не приходится. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Наверх |