Дано: неаннотированный фрагмент генома бактерии Yersinia intermedia (AC EMBL:AALF01000002, координаты фрагмента 35001-42000). Дан также протеом бактерии-прототипа Escherichia coli K-12.
Задача: определить, кодирует ли заданный Вам фрагмент что-либо, похожее на какой-либо белок из прототипного организма.
Выполнение:
1. Был получен заданный фрагмент генома Yersinia intermedia длины 7000 нуклеотидов с помощью программы seqret:
seqret AALF01000002.embl -sask
Выходной файл: aalf01000002.fasta
2. Был получен полный протеом кишечной палочки E.coli
seqret sw:*_ECOLI
выходной файл: 3mg1_ecoli.fasta
3. Созданы индексные файлы для поиска по геному
formatdb -i 3mg1_ecoli.fasta -p T -n 3mg1
4. С помощью программы getorf из пакета EMBOSS извлечены из вырезанного фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (параметр minsize - значение 240), использован стандартный для бактерий генетический код (параметр table - значение 11), при этом открытой рамкой считается последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном (параметр find - значение 1).
Соответствующая команда: getorf -table 11 -find 1 -minisize 240
выходной файл: aalf01000002.orf
5. В итоге мы получили индексные файлы (по аминоксилотной последовательности) и список из 14 транслированных ORF-ов. Следовательно, чтобы найти всех гомологов в протеоме E.coli пользуемся программой blastp:
6. Создали скрипт для ля подсчета числа сходных последовательностей для каждой ORF из заданного фрагмента генома Yersinia intermedia :
seqret aalf01000002.orf:AALF01000002_1 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" > blastpp
seqret aalf01000002.orf:AALF01000002_2 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_3 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_4 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_5 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_6 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_7 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_8 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_9 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_10 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_11 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_12 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_13 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
seqret aalf01000002.orf:AALF01000002_14 stdout | blastall -d 3mg1 -e 0.001 -p blastp | grep "Number of sequences better than" >>blastpp
Файл script1.txt
7. В итоге в файле blastpp оказался список, в котором указано количество находок у кишечной палочки для каждой рамки считывания. Определив те рамки считывания, для которых что-то найдено написали соответсвующий скрипт результатом которого будет файл с результатами blastp.
eqret aalf01000002.orf:AALF01000002_3 stdout | blastall -d 3mg1 -e 0.001 -p blastp > blastp1
seqret aalf01000002.orf:AALF01000002_4 stdout | blastall -d 3mg1 -e 0.001 -p blastp >> blastp1
seqret aalf01000002.orf:AALF01000002_8 stdout | blastall -d 3mg1 -e 0.001 -p blastp >> blastp1
seqret aalf01000002.orf:AALF01000002_9 stdout | blastall -d 3mg1 -e 0.001 -p blastp >> blastp1
seqret aalf01000002.orf:AALF01000002_11 stdout | blastall -d 3mg1 -e 0.001 -p blastp >> blastp1
seqret aalf01000002.orf:AALF01000002_13 stdout | blastall -d 3mg1 -e 0.001 -p blastp >> blastp1
seqret aalf01000002.orf:AALF01000002_14 stdout | blastall -d 3mg1 -e 0.001 -p blastp >> blastp1
Файл Scriptp2.txt
выходной файл с выравниваниями : blastp1
8. Была создана книга Excel: aaorf.xls, включающая информацию обо всех открытых рамках считывания в данном фрагменте генома и число сходных последовательностей, найденных у E. coli при условии E-value<0,001
Полученные результаты.
Описание взаимного расположения предполагаемых генов (т.е., открытых рамок, для которых нашелся сходный участок протеома E. coli) в заданном фрагменте.
Гипотетические гены во фрагменте 35001-42000
5’---------------------------------- [=>mdtH 1370 – 2572]-- [=> yceB 2767-3420]--------------------------------------------------------------------------------------------------3’
3’---[<=yceH 3 – 521]-[<=rimJ 499 – 1080] --------------------------[<=ycdY 3524 – 4075]--[<=ycdX 4151 – 4957] -[<= ycdW 5042 – 6040]----------------5’
где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, четырехсимвольный код - название самого сходного гена у E. coli, а координаты - местонахождение границ открытой рамки в данном фрагменте.
Сравнение взаимного расположения предсказанных генов в исследуемом фрагменте и сходных аннотированных генов E. coli.
Расположение сходных аннотированных генов E. Coli
5’-[=>ycdW 1098127-1099065]---[=>ycdX 10099120 -199857]---[=>ycdY 1099811 - 1100435]--------[=> rimJ 1127139-1127723]-[=> yceH 1127734-1128381]--------------------------3’
3’---[<= yceB 1124290-1124850]-[<=mdtH 1125695-1126903] ----------------------------------------------------------------------------------------------------------------------------------------------------------------5’
Выводы:
Взаимное расположение генов у Yersinia intermedia и у E.coli одинаковое на прямых и обратных цепях. Однако, что интересно: гены mdtH и yceB у Yersinia intermedia располагаются на прямой цепи, а у кишечной палочки на обратной, тоже самое происходит и с генами: yceH, rimJ, ycdY, ycdX, ycdW - на обратной цепи (Yersinia intermedia), а у E.coli на прямой. Гены mdtH и yceB в геноме Yersinia intermedia отстоят друг от друга на расстоянии 195 н.п., а в геноме E.coli на 845. Эта тенденция наблюдается и для остальных генов. Во фрагменте генома Yersinia intermedia рамки считывания генов yceH и rimJ перекрываются, в E.coli это не наблюдается. Из этого можно сделать вывод, что данные два организма являются родственными, но их родство не столь близко.