|
|
Контрольное задание по BLAST
Дан фрагмент генома Regiella insecticola из заданной записи EMBL (AC200763) с заданным началом, длиной 7000 нуклеотидов.
Необходимо определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12 (3mg1_ecoli.fasta).
1. Создал индексные файлы (index) 3mg1_ecoli.fasta для поиска программами пакета BLAST.
2. Извлек из моего фрагмента (AC200763) трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов.
Воспользовался программой getorf из пакета EMBOSS.
При этом использовал стандартный для бактерий (bacterial) генетический код, открытой рамкой считал последовательность,
начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном. (Параметры программы getorf: -minsize 240 -find 1 -table 11 ). Нашлось 20 рамок.
3.Трансляции всех открытых рамок считывания были запущены на поиск в полном протеоме E.coli
(программа blastp - поиск белковой последовательности в белковом банке).
blastall -p blastp -d index -i ac200763.orf -e 0.001 > ac200763.out
Скачать файл Excel с результатами выполнения задания getorf.xl.xls
Было подсчитано число находок с E-value < 0.001 (программа grep)
Таблица открытых рамок, для которых нашелся сходный участок генома/протеома E. coli
name | начало фрагмента | конец фрагмента | направление | число находок blastp | идентиф. Самого близкого из найденных белков | E-value |
>AC200763_3 | 1901 | 2623 | прямое | 1 | YHGF_ECOLI | 1,00E-90 |
>AC200763_4 | 2566 | 3498 | прямое | 1 | YHGF_ECOLI | 3,00E-126 |
>AC200763_5 | 3458 | 4093 | прямое | 3 | YHGF_ECOLI | 5,00E-89 |
>AC200763_10 | 6996 | 6664 | обратное | 1 | RL13_ECOLI | 4,00E-54 |
>AC200763_11 | 6661 | 6254 | обратное | 1 | RS9_ECOLI | 3,00E-64 |
>AC200763_13 | 5548 | 4874 | обратное | 1 | SSPA_ECOLI | 5,00E-74 |
>AC200763_14 | 4865 | 4365 | обратное | 1 | SSPB_ECOLI | 2,00E-36 |
>AC200763_18 | 1503 | 787 | обратное | 25 | OMPR_ECOLI | 4,00E-113 |
>AC200763_19 | 829 | 119 | обратное | 1 | ENVZ_ECOLI | 1,00E-90 |
>AC200763_20 | 296 | 3 | обратное | 3 | ENVZ_ECOLI | 9,00E-25 |
Гипотетические гены во фрагменте 7001-14000 записи AC200763
3'[=>YHGF_ECOLI 1901-2623]
-[=>YHGF_ECOLI 2566-3498]-
--[=>YHGF_ECOLI 3458-4093]------------------------------------------------------------------------------------------------------------------------5'
-[<=ENVZ_ECOLI 829-119]-[<=OMPR_ECOL 1503-787]-[<=SSPB_ECOLI 4865-4365]-[<=SSPA_ECOLI 5548-4874]-[<=RS9_ECOLI 6661-6254]-[<=RL13_ECOLI 6996-6664]-3'
5'[<=ENVZ_ECOLI 296-3]
где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно,
В двух участках наблюдается перекрывание генов.Причем, рамки с координатами (6493-6747 и 6623-6973)
схожи с одним и тем же белком ENVZ_ECOLI.
Возможно при сиквенировании произошла ошибка (встраивание или делеция нуклеотида),
рамка считывания сдвинулась и привела к разделению рамок считывания.
3'--[=>YHGF_ECOLI 3535407-3537728]--------------------------------------------------------------------------------------------5'
5'-[<=ENVZ_ECOLI 3532538-3533890]-
[<=OMPR_ECOL 3533887-3534606]-[<=SSPB_ECOLI 3374301-3374798]-[<=SSPA_ECOLI 3374804-3375442]-3'
Вывод скорее всего все белки консервативны.
|