Зачетное задание 2го блока

1. Получение фрагмента генома Regiella insecticola
С помощью программы  seqret  мною был получен необходимый для дальнейшей работы фрагмент генома Regiella insecticola (идентификатор записи EMBL: AC192956)  
с 77001 по 84000 нуклеотид: seqret "ac192956.entret:ac192956[77001:84000]" ac192956.fasta
Полная запись EMBL была получена, в свою очередь, с помощью команды entret.

2. Получение полного протеома E.coli
Команда seqret sw:*_ECOLI позволила получить файл с последовательностями всех описанных белков E.coli. Далее были созданы индексные файлы 
для дальнейшего поиска программами пакета BLAST: 
formatdb -i 3mg1_ecoli.fasta -p T -n ec

3. Получение трансляции всех открытых рамок считывания
Программа getorf пакета EMBOSS позволяет найти открытые рамки считывания длиной не менее 240 нуклеотидов, используя бактериальный геном, 
считая открытой рамкой последовательность от старт-кодона до стоп-кодона  с помощью команды:
getorf -table 11 -minsize 240 -find 1 -sequence ac192956.fasta
В результате был получен файл
 с 14 рамками считывания.

4. Поиск сходных последовательностей
Для поиска сходных последовательностей в протеоме E.coli была использована программа blastp, осуществляющая поиск гомологов белковой последовательности. 
Для всех находок установим порог E-value<0,001:
blastall -p blastp -d ec -i ac192956.orf -m 8 -e 0.001 -o blast.txt

В данной таблице представлены те рамки считывания, для которой были найдены сходные последовательности в протеоме E.coli (их оказалось всего 3), а также
 лучшие находки и их E-value (которое как раз показывает значимость находки):
P.S. Все рамки считывания можно увидеть в таблице Excel.
Рамка считывания: AC192956_2 AC192956_4 AC192956_14
№ начала рамки считывания: 336 1740 2
№ конца рамки считывания: 1160 2663 337
Направление фрагмента: прямое прямое обратное
Число сходных последовательностей в E. coli K12 (E-value<0,001): 1 4 2
Идентификатор самого близкого из найденных белков E. coli: GNTX_ECOLI INSF_ECOLI, INF7_ECOLI BIOH_ECOLI
E-value находки: 2e -55 1e -11 5e -41
5. Гипотетические гены во фрагменте 77001–84000 записи AC192956 
(графическое описание взаимного расположения предполагаемых генов в заданном фрагменте, выполнено на основании таблицы):


5'------------------------------[=> GNTX_ECOLI, 336-1160]----------------[=> INSF_ECOLI, 1740-2663]-------------3'
3'-----------[<= BIOH_ECOLI, 2-337]-----------------------------------------------------------------------------5'





6. Гены в геноме E.coli

5'----[=> INSF_ECOLI, 2172669-2173535]---------------------------------------------------------------------------------------------
---------------------------------------------------------------------[=> BIOH_ECOLI, 4095572-4096342]----------3'

3'---------------------------------------------------------------------------------------------------------------------------------
------------------------------------[<= GNTX_ECOLI, 4094851-4095534]-------------------------------------------5'

Замечания:

Консервативность наблюдается в  "соседстве" генов GNTX и BIOH, В E.coli эти гены расположены практически так же, как и в Regiella,
а INSF распологается более удаленно.


Назад