Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii
Задача:
определить, закодированы ли данном фрагменте какие-либо белки,
похожие на известные белки родственной бактерии (кишечной палочки).
Получили заданный фрагмент генома Yersinia mollaretii длины 7000 нуклеотидов из записи EMBL AALD01000001 с помощью опции -sack программы seqret. При этом начало фрагмента - 42001, конец - 49000. Определяли, есть ли в этом фрагменте гены, похожие на гены бактерии Escherichia coli K-12 .
seqret sw:*_ECOLI.
Создали индексные файлы для поиска программами пакета BLAST с помощью программы formatdb:
formatdb -i 3mg1_ecoli.fasta -p T -n ecoli.
getorf -table 11 -minsize 240 -find 1 -sequence aald01000003.fasta -o aal.orf.
Итого получили всего 18 открытых рамок.
Для поиска сходных последовательностей у E. coli использовали программу blastp, которая позволяет искать гомологов белковой последвательности по банку белковых последовательностей. Для получения файла, содержащего информацию о сходных последовательностях, найденных у E. coli при условии E-value<0,001, была выполнена команда:
blastall -p blastp -d ecoli -i aal.orf -e 0.001 -m 9 -o ecoli.out.
Далее необходимо было извлечь данные о числе сходных последовательностей для каждой открытой рамки. Это было сделано при помощи скрипта.
Рамка | Начало | Конец | Направление | Число находок | ID Ecoli | E-value |
AALD01000003_1 | 12 | 635 | N | 19 | YFHK_ECOLI | 4*10-78 |
AALD01000003_2 | 639 | 1790 | N | 1 | YFHG_ECOLI | 2*10-45 |
AALD01000003_4 | 1696 | 3090 | N | 39 | YFHA_ECOLI | 0 |
AALD01000003_6 | 3133 | 4758 | N | 1 | YBEM_ECOLI | 2*10-6 |
AALD01000003_7 | 4777 | 5112 | N | 2 | GLNB_ECOLI | 2*10-55 |
AALD01000003_10 | 6895 | 6518 | Y | 1 | YHFU_ECOLI | 3*10-48 |
AALD01000003_11 | 6505 | 5216 | Y | 1 | YHFT_ECOLI | 3*10-168 |
3'------------------------------------------------------------------------------------------------------[<=yhfT, 5216-6505]--[<=yhfU,6518-6895]---5' 5'--[=>yfhK, 12-635]-[=>yfhG, 639-1790]--------------[=>ybeM, 3133-4758]----[=>glnB, 4777-5112]---------------------------------------------------3' 5'-------------------------------[=>yfhA, 1696-3090]----------------------------------------------------------------------------------------------3'
3'-------------------------------------------------------------------------------------------------------------------------------------------[<=yhfT, 819054-820358]--[<=yhfU,820370-820723]---5' 5'--[=>glnB, 92-430]------------------[=>yfhG, 1815-2528]-------[=>yfhK, 2693-4120]------------------------------------------------------------------------------------------------------------3' 5'--------------------[=>yfhA, 491-1825]-------------------------------------------------------------------------------------------------------------------------------------------------------3'
Ген ybeM не приведён на данной картинке, поскольку его границы (657254-658041) удалены от остальных генов на значительное растояние.
Что же касается сравнения расположения остальных генов, то следует отметить, что гены, располагавшиеся на комплиментарной цепи отстоят достаточно далеко от остальных генов у Escherichia coli, но в то же времы их взаимное расположение не претерпевает каких-либо глобальных изменений, расстояние между ними изменяется только на 1 нуклеотид. Из этого можно сделать вывод, что гены yhfT и yhfU достаточно близки.
Группа генов, находившаяся в последовательности Yersinia mollaretii на прямой цепи в геноме Escherichia coli выглядит немного иначе. Кожется, что гены yfhK и glnB поменялись местами, да и ген yfhA, перекрывается с yfhG в последовательности из Yersinia mollaretii на конце yfhG, а в геноме Escherichia coli в начале. Такое ощущение, что гены glnB, yfhG и yfhK просто "развернули" в последовательности Yersinia mollaretii. И всё таки, гены находятся достточно близко, что может говорить о некоторой их консервативности.