Главная
I Семестр
II Семестр
III Семестр
Проекты
Обратная Связь
|
Зачетное задание по BLAST
Дано: неаннотированный фрагмент генома бактерии Regiella insecticola
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки
бактерии E.coli
Для выполнения поставленной задачи, сперва вырежем интересующий фрагмент генома Regiella
insecticola из заданной записи EMBL AC200764 (нуклеотиды с 1 по 7000) с помощью команды:
seqret -sask
Input (gapped) sequence(s): ac200764.fasta
Begin at position [start]: 1
End at position [end]: 7000
Reverse strand [N]: n
output sequence(s) [ac200764.fasta]: myseq.fasta
Затем получил полный протеом бактерии Escherichia coli штамма K12 из Swiss-Prot с помощью команды:
seqret sw:*_ecoli
и проиндексируем его для дальнейшей работы
formatdb -i 3mg1_ecoli.fasta -n base -p T
Для того что бы определить, закодированы ли на данном участки белки, похожие на известный необходимо:
Сперва нужно получить трансляцию всех открытых рамок считывания длиной не менее 240 нуклеотидов при условии использования
стандартного бактериального генетического кода, считая открытой рамкой считывания последовательность между старт- и стоп-кодонами:
getorf -sequence myseq.fasta -minsize 240 -table 11 -find 1
Всего было найдено 15 рамок, из них 6 на прямой цепи и соответственно 9 на обратной.
Теперь определим количество белков с такими рамками в протеоме Escherichia coli K-12.
Воспользуемся программой blastp, которая производит поиск белковых последовательностей,
используя в качестве входа белковые последовательности:
blastall -p blastp -d base -i myseq.orf -e 0.001 -o count_m.txt -m 8
В результате получили файл, в котором содержиться информация о белках Е.сoli,
имеющих такие же рамки считывания как и в данном нам фрагменте.
Полученный результат запишем в книге Excel, включающей информацию обо всех открытых рамках считывания в моём фрагменте генома.
Для этого с помощью программы grep (поиск строки ">") и перенаправлением вывода, извлёк: имена открытых рамок
в моём фрагменте, начала и концы рамок, а также их направление. Затем добавим эту информацию в книгу Excel.
Затем с помощью Excel создал столбец с командами программы grep для подсчёта количества строк (-c), содержащих имя каждой рамки
в выходном файле программы blast с перенаправлением вывода. Для того чтобы, для рамки AC200764_1 не находились также
и рамки AC200764_10 - AC200764_15, необходимо было поставить знак '\>', означающий конец слова.
В результате чего получил скрипт, а получившиеся в результате его запуска
количество находок для каждой последовательности я скопировал в книгу Excel (PROTEIN).
Исходя из полученных выше данных можно составить таблицу предполагаемых генов
(включающая только те ORF, для которых найден хотя бы один гомолог):
Название рамки |
Начало |
Конец |
Направление |
Число находок BLAST с E-value < 0.001 |
Идентификатор лучшей находки |
E-value лучшей находки |
AC200764_5 |
5886 |
6635 |
Прямое |
3 |
GPMA_ECOLI |
e-107 |
AC200764_6 |
6693 |
6998 |
Прямое |
1 |
ZITB_ECOLI |
2e-05 |
AC200764_11 |
3408 |
4385 |
Обратное |
1 |
RS2_ECOLI |
3e-119 |
AC200764_12 |
2446 |
3363 |
Обратное |
1 |
EFTS_ECOLI |
3e-110 |
AC200764_13 |
1363 |
2199 |
Обратное |
1 |
PYRH_ECOLI |
5e-112 |
AC200764_14 |
651 |
1229 |
Обратное |
1 |
RRF_ECOLI |
3e-67 |
AC200764_15 |
1 |
624 |
Обратное |
1 |
DXR_ECOLI |
1e-71 |
Таким образом, сходные последовательности E.coli нашлись для 7 рамок, из них 2 лежат на прямой цепи,
а 5 на комплементарной. Перекрывающихся генов нет.
Взаимное расположение гипотетических генов во фрагменте 1-7000 записи EMBL AC200764
3' [<=DXR, 1-624]--[<=RRF, 651-1229]--[<=PYRH, 1363-2199]--[<=EFTS, 2446-3363]- 5'
5' ---------------------------------------------------------------------------- 3'
3' -[<=RS2, 3408-4385]--------------------------------------------------------- 5'
5' ------------------------------------[=>GPMA, 5886-6635]--[=>ZITB, 6693-6998] 3'
Белки названы в соответствии с таковыми у E.coli.
Сравнение расположения предполагаемых генов данного фрагмента и гомологичных им генов в геноме E.coli
Я получил запись с полным геномом бактерии E.coli c помощью команды:
entret embl:u00096
В этой записи я нашёл гены E.coli, гомологичные предпологаемым генам в моём фрагменте, и записал их положения в геноме в таблицу:
Идентификатор |
Название гена |
Начало |
Конец |
Направление |
GPMA_ECOLI |
gpmA |
786066 |
786818 |
Обратное |
ZITB_ECOLI |
zitB |
783105 |
784046 |
Обратное |
RS2_ECOLI |
rpsB |
189874 |
190599 |
Прямое |
EFTS_ECOLI |
tsf |
190857 |
191708 |
Прямое |
PYRH_ECOLI |
pyrH |
191855 |
192580 |
Прямое |
RRF_ECOLI |
frr |
192872 |
193429 |
Прямое |
DXR_ECOLI |
dxr |
193521 |
194717 |
Прямое |
На основание таблицы построил взаимное расположение генов в E.coli
3' -------------------------------------------------------------------------------------------------- 5'
5' ----[=>RS2, 189874-190599]-[=>EFTS, 190857-191708]-[=>PYRH, 191855-192580]-[=>RRF, 192872-193429]- 3'
3' -----------------------------------------------[<=ZITB, 783105-784046]---[<=GPMA, 786066-786818]-- 5'
5' -[=>DXR, 193521-194717]--------------------------------------------------------------------------- 3'
Схема наглядно показывает, что исследуемые гены в E.coli частично сгруппированы:
- zitB, gpmA
- rpsB, tsf, pyrH, frr, dxr
Внутри каждой группы гены распологаются на одних и тех же цепях ДНК относительно друг друга.
Так, гены rpsB, tsf, pyrH, frr и dxr образуют очень плотную группу, они расположены в том же порядке, что и в Regiella insecticola,
и расположены на другой цепи по сравнению с другими 2 генами. В свою очередь, у генов zitB и gpmA сохраненяется порядок, но идут они
не так плотно как в Regiella insecticola (шли друг за другом), в E.coli же между ними располагаются 2 гена (ybgS и aroG).
Таким образом, можно сделать вывод о необходимости расположения данных генов внутри группы рядом друг с другом. Возможно
это связано с тем, что гены имеют функциональную связь.
|