Учебный сайт Кирилла Цуканова → Третий семестр

Самостоятельная работа по предсказанию генов

Цель: взять указанный фрагмент генома длиной 7 тысяч нуклеотидов и найти в нем предполагаемых гомологов белков сенной палочки.

Для начала получим фрагмент: seqret -sask, по запросу программы укажем запись embl:AEWH01000012, начало 126 001, конец 133 000, оставим кусочек генома в файле myfragment.fasta.

Далее с помощью seqret sw:*_BACSU -out bacsu.fasta получим полный (почти) протеом сенной палочки (файл весит полтора мегабайта и был удален, как только перестал быть нужен). С помощью makeblastdb -in bacsu.fasta -out bacsu получим индексные файлы для поиска (здесь также не приводятся).

Трансляции рамок считывания (между старт- и стоп-кодонами) нам выдаст getorf -sequence myfragment.fasta -table 11 -minsize 240 -find 1 -out orfs.fasta. Отсюда информацию в нужном виде легко получить такой командой: grep ">" orfs.fasta | sed -e "s/>//" -e "s/\[//" -e "s/\]//" -e "s/- //" -e "s/ AE.*//" -e "s/AE.*_//" -e "s/(REVERSE SENSE)/reverse/" > orfs_processed.txt. ,

Запустив blast: blastp -db bacsu -query orfs.fasta -evalue .001 -outfmt 6 > blast_6.txt, прогоним выходной файл через такое: for i in {1..14}; do grep -Pc "AEWH01000012_$i\t" blast_6.txt; done и получим количество находок BLAST для каждого белка; всё вместе скомпонуем в orfs.xls.

Сделаем таблицу про рамки, для которых нашлось хоть одно совпадение:

#НачалоКонецНаправлениеНайденоID ближайшегоE-value
215652065прямое1 YKHA_BACSU1e-29
467606999прямое2 CWLJ_BACSU7e-18
760895475обратное1 UBIE_BACSU2e-05
952404512обратное1 YGAJ_BACSU4e-82
1144263185обратное6 YFIS_BACSU7e-14
1228682341обратное1 YDFB_BACSU1e-18
141109219обратное4 CZCD_BACSU3e-51

Схематическое представление положения найденных открытых рамок считывания, одновременно представляющее собой карту генов:

Теперь нам нужно найти, где находятся гены, соответствующие найденным самым близким белкам, в геноме сенной палочки. Для этого возьмем запись с полным ее геномом. И, в общем, на этом придется и закончить, потому что гены расшвыряло по геному так, что какой-то гомологии в расположении не получится найти совсем никак: никакие два из них не находятся даже ближе нескольких десятков тысяч нуклеотидов друг от друга, расположение на комплементарных цепях тоже беспорядочно.