На главную
Третий семестр


Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii (112001-112009)

Задача: определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии (кишечной палочки).

Ход работы:

1. Получение интересующего участка генома:
seqret -sask
Input (gapped) sequence(s): aald01000001.embl
Begin at position [start]: 112001
End at position [end]: 112009
Reverse strand [N]: n
output sequence(s) [aald01000001.fasta]: aald01000001.fasta

2. Получение полного протеома Escherichia coli K-12:
seqret sw:*_ECOLI
output sequence(s) [3mg1_ecoli.fasta]: 3mg1_ecoli.fasta

3. Создание индексных файлов:
formatdb -i 3mg1_ecoli.fasta -p T -n out

4. Извлечение из фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. При этом использован стандартный для бактерий генетический код. Открытой рамкой считала последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.

getorf -table 11 -minisize 240 -find 1
Input nucleotide sequence(s): aald01000001.fasta
protein output sequence(s) [aald01000001.orf]: aald01000001.orf

5. Поиск сходных последовательностей, найденных у E. coli при условии E-value < 0,001:
blastall -p blastp -d out -i aald01000001.orf -m 9 -e 0.001 -o nahodki.txt

6. Для подсчета найденных гомологов использован скрипт.
Выходной файл - result.txt

7. Таблица открытых рамок, для которых нашелась хотя бы одна сходная последовательность:

8. Cхематичное расположение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.
Гипотетические гены во фрагменте 112001-119000 записи AALD0100000.

3' --[<= ген pgab, 69-473]----------------[<= ген pgad, 1797-2261]---------[<= ген phoh, 3881-4666]------------------------------------------------------------ 5'
3' -----------------[<= ген pgac, 427-1797]--------------------------------------------------------------------------------------------------------------------------- 5'
5' --------------------------------------------------------------------------------------------------------------[=> ген chaa, 4783-5904]-[=> ген yqjh, 6110-6991]- 3'

Для шести открытых рамок считывания были найдены сходные последовательности в E.coli: 4 располагаются в прямом направлении, 2 - в обратном. Первая и вторая рамки пересекаются по последовательности в количестве 47 нуклеотидов.

9. Сравнение взаимного расположения предсказанных генов в исследуемом фрагменте и сходных аннотированных генов в геноме E. coli.

Стоит отметить значительное отдаление гена YQJH относительно пяти других гомологичных генов в геноме кишечной палочки. Оно исчисляется порядком 2 млн. нуклеотидов. Есть отличие в направлении генов. Если PGAB, PGAC, PGAD, PHOH исследуемого фрагмента располагались на одной цепи, а YQJH и CHAA - на другой, то в геноме E. coli наблюдается другая картина: PGAB, PGAC, PGAD, СНАА, YQJH имеют прямое направление, в то время как PHOH обратное. Таким образом нарушается как качественный, так и количественный состав исследуемых генов на соответсвующих цепях. Однако, нельзя не отметить правильно предсказанное "перекрытие" генов PGAC и PGAB: разница лишь в числе пересекаемых нуклеотидов (47 предсказанных нуклеотидов сокращаются до 8 в кишечной палочке). Совпадает так же факт последовательного расположения генов PGAC и PGAD. В E. coli данные гены разделяет лишь один нуклеотид. Исходя из полученных результатов, справедливым, скорее, будет заключить, что группа исследуемых генов не является консервативной, хотя, конечно, о полном их различии говорить нельзя.


©Третьякова Светлана, 2008