Зачетное задание
Мне был дан неаннотированный фрагмент (AC200763) генома бактерии Regiella insecticola с 70001 по 77000 нуклеотид.1. Необходимо определить, где в данном фрагменте закодированы белки, похожие на известные белки с.
1). Сначала получим из Swiss-Prot полный протеом E. coli. Команда:
seqret sw:*_ECOLIРезультат: файл 3mg1_ecoli.fasta с последовательностью всех белков E. coli.
2). Далее создадим индексные файлы для поиска программами пакета Blast:
formatdb -i 3mg1_ecoli.fasta -p T -n ec
seqret -sask
2. Необходимо получить трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов.
1). Для начала получим трансляции открытых рамок считывания изучаемого фрагмента генома Regiella insecticola. Для этого воспользуемся программой getorf, используя стандартный для бактерий генетический код и считая открытой рамкой последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном длиной не менее 240 нуклеотидов.
getorf -table 11 -minsize 240 -find 1 -sequence ac200763.fasta
3. Необходимо провести поиск сходных последовательностей и занести результаты в таблицу Excel.
1). Воспользуемся пакетом Blast, программой BlastP (ищет гомологов белковой последовательности в банке данных белков). Критерием находок будем считать E-value меньше 0.001.
blastall -p blastp -d ec -i ac200763.orf -m 8 -e 0.001 -o hom.txt
2). Затем мной был написан скрипт для подсчета числа находок для каждой рамки считывания.
В итоге был получен следующий файл.
3). Все результаты были занесены в таблицу Excel.
4. Гипотетические гены во фрагменте 70001-77000 записи AC200763.
Графическое описание взаимного расположения предполагаемых генов в заданном фрагменте. На представленной ниже схеме в квадратные скобки заключено направление цепи ДНК (=> значит прямое направление, <= обратное), краткое название самого сходного белка E. coli и координаты границ открытой рамки в изучаемом фрагменте:
3'--------------------------[<= zapB, 537-797]----------[<= bioa, 1661-2641]--[<= insf, 2694-3797]--------------[<= tkt1, 4313-6301]---------5' 5'--[=> rrmt, 36-326]------------------------------------------------------------------------------------------------------------------------3'
5. Взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки
Сначала я нашла геном кишечной палочки: entret embl:u00096
Затем составила графическое описание (обозначения на схеме те же, что и в п. 4):
3' -----------------------------------------------------------------------------[<= rrmt, 2938165..2939265]------------------------------------- 5' 5' ----[=> bioa, 807191..808480]---------------[=> insf, 1093498..1094364]----------------------------------------[=> zapB, 4116538..4116783]--- 3'Так как гены расположены далеко друг от друга и порядок генов в двух геномах не совпадает, то можно сказать, что консервативных участков нет.
Остальных генов найдено не было.