Зачётное задание

        Чтобы найти в неаннотированном фрагменте генома бактерии Regiella insecticola (первые 7000 нуклеотидов последовательности с ID AC200763)
        гены вероятных гомологов белков E.coli, была использована программа BLASTP пакета BLAST
        командная строка blastall -p blastp -d ec -m 8 -e 0.001 -i <файл с рамками считывания> -o <выходной файл>
        Трансляции рамок считывания длиной не менее 240 нуклеотидов (бактериальный код) получены из последовательности с помощью команды getorf 
        (-minsize 240 -table 11 -find 1). После чего с помощью скрипта получили следующую таблицу
        На схеме взаимное расположение предполагаемых генов
        можно изобразить так 
предполагаемые гены во фрагменте участка генома исследуемой бактерии (1й-7000й нуклеотид) 3'-----------------------------------------------------------------------[<== GLTS, 5221-6420]-[<== ENVZ, 6493-6747, 6623-6973]-----5' 5'--[==> RPOZ, 273-577][==> SPOT, 531-2699]-----[==> RECG, 2960-5092]-------------------------------------------------------------- 3' соответствующие кодирующие участки в геноме E.coli 3'--------------[<== RECG]------[<== SPOT]-[<== RPOZ]-------------------------------------------------------------------------------5' 5'--[==> GLTS]---------------------------------------------------------------------------------------------(...)--[==> ENVZ]--------3'
Гены E.coli, подобные последовательностям с индексами 2,3,5 и 8 расположены в том же порядке, что и сходные с ними участки генома R.insecticola, и так же сближены; видно, что одна схема - как бы перевёрнутая копия другой; можем сказать, это консервативны образ расположения данной группы из 4 генов. Ген envZ сильно удалён от прочих (на несколько сот тысяч нуклеотидов) и нарушает этот порядок. Его положение относительно остальных в данном случае не консервативно. Нетрудно заметить, что рамки с индексами 2, 3 и 6, 7 перекрываются, но это не должно нас смущать по следующим причинам. Если рассмотреть точные координаты выровненных участков * (столбцы 7,8 - начало и конец выравнивания для нашего преполагаемого белка; 9,10 - для белка E.coli из базы данных) видно, что участки 6 и 7 с немалой долей вероятности гомологичны двум близлежащим фрагментам гена envZ, т.е., не исключено, что рамки были разделены ошибочно (например, из-за лишнего или утерянного при секвенировании нуклеотида) и на самом деле представляют собой одну: просто рамка считывания в какой-то момент начинает "видеть" другую, неверную последовательность, а стоп-кодон случайным образом "всплывает" в другом месте. Так что рамки могут рассматриваться только по отдельности. В случае же с рамками 2 и 3, возможно, произошла аналогичная ошибка, из-за которой они, напротив, не разделились.


К перечню исследовательских работ
На главную