Здесь будет эмблема,извините за недоработку

Третий семестр

Главная
Первый семестр
Второй семестр
Третий семестр

Контрольное задание по BLAST

Дан фрагмент генома Regiella insecticola из заданной записи EMBL (AC200763) с заданным началом, длиной 7000 нуклеотидов.
Необходимо определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12 (3mg1_ecoli.fasta).

1. Создал индексные файлы (index) 3mg1_ecoli.fasta для поиска программами пакета BLAST.

2. Извлек из моего фрагмента (AC200763) трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов.
 Воспользовался программой getorf из пакета EMBOSS.
 При этом использовал стандартный для бактерий (bacterial) генетический код, открытой рамкой считал последовательность,
 начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном. (Параметры программы getorf: -minsize 240 -find 1 -table 11 ). Нашлось 20 рамок.

3.Трансляции всех открытых рамок считывания были запущены на поиск в полном протеоме E.coli
  (программа blastp - поиск белковой последовательности в белковом банке).

blastall -p blastp -d index -i ac200763.orf -e 0.001 > ac200763.out


Скачать файл Excel с результатами выполнения задания getorf.xl.xls

Было подсчитано число находок с E-value < 0.001 (программа grep)

Таблица открытых рамок, для которых нашелся сходный участок генома/протеома E. coli
nameначало фрагментаконец фрагментанаправлениечисло находок blastpидентиф. Самого близкого из найденных белковE-value
>AC200763_319012623прямое1YHGF_ECOLI1,00E-90
>AC200763_425663498прямое1YHGF_ECOLI3,00E-126
>AC200763_534584093прямое3YHGF_ECOLI5,00E-89
>AC200763_1069966664обратное1RL13_ECOLI4,00E-54
>AC200763_1166616254обратное1RS9_ECOLI3,00E-64
>AC200763_1355484874обратное1SSPA_ECOLI5,00E-74
>AC200763_1448654365обратное1SSPB_ECOLI2,00E-36
>AC200763_181503787обратное25OMPR_ECOLI4,00E-113
>AC200763_19829119обратное1ENVZ_ECOLI1,00E-90
>AC200763_202963обратное3ENVZ_ECOLI9,00E-25

Гипотетические гены во фрагменте 7001-14000 записи AC200763

3'[=>YHGF_ECOLI 1901-2623]
  -[=>YHGF_ECOLI 2566-3498]-
  --[=>YHGF_ECOLI 3458-4093]------------------------------------------------------------------------------------------------------------------------5'
  -[<=ENVZ_ECOLI 829-119]-[<=OMPR_ECOL 1503-787]-[<=SSPB_ECOLI 4865-4365]-[<=SSPA_ECOLI 5548-4874]-[<=RS9_ECOLI 6661-6254]-[<=RL13_ECOLI 6996-6664]-3'
5'[<=ENVZ_ECOLI 296-3]
где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, 
В двух участках наблюдается перекрывание генов.Причем, рамки с координатами (6493-6747 и 6623-6973)
 схожи с одним и тем же белком ENVZ_ECOLI. 
Возможно при сиквенировании произошла ошибка (встраивание или делеция нуклеотида),
рамка считывания сдвинулась  и привела к разделению рамок считывания.
3'--[=>YHGF_ECOLI 3535407-3537728]--------------------------------------------------------------------------------------------5'
5'-[<=ENVZ_ECOLI 3532538-3533890]-
                           [<=OMPR_ECOL 3533887-3534606]-[<=SSPB_ECOLI 3374301-3374798]-[<=SSPA_ECOLI 3374804-3375442]-3'
Вывод скорее всего все белки консервативны.
Главная Второй Семестр