Зачётное задание
Чтобы найти в неаннотированном фрагменте генома бактерии Regiella insecticola (первые 7000 нуклеотидов последовательности с ID AC200763)
гены вероятных гомологов белков E.coli, была использована программа BLASTP пакета BLAST
командная строка blastall -p blastp -d ec -m 8 -e 0.001 -i <файл с рамками считывания> -o <выходной файл>
Трансляции рамок считывания длиной не менее 240 нуклеотидов (бактериальный код) получены из последовательности с помощью команды getorf
(-minsize 240 -table 11 -find 1). После чего с помощью скрипта получили следующую таблицу
На схеме взаимное расположение предполагаемых генов
можно изобразить так
предполагаемые гены во фрагменте участка генома исследуемой бактерии (1й-7000й нуклеотид)
3'-----------------------------------------------------------------------[<== GLTS, 5221-6420]-[<== ENVZ, 6493-6747, 6623-6973]-----5'
5'--[==> RPOZ, 273-577][==> SPOT, 531-2699]-----[==> RECG, 2960-5092]-------------------------------------------------------------- 3'
соответствующие кодирующие участки в геноме E.coli
3'--------------[<== RECG]------[<== SPOT]-[<== RPOZ]-------------------------------------------------------------------------------5'
5'--[==> GLTS]---------------------------------------------------------------------------------------------(...)--[==> ENVZ]--------3'
Гены E.coli, подобные последовательностям с индексами 2,3,5 и 8 расположены в том же порядке, что и сходные с ними участки генома R.insecticola,
и так же сближены; видно, что одна схема - как бы перевёрнутая копия другой; можем сказать, это консервативны образ расположения
данной группы из 4 генов.
Ген envZ сильно удалён от прочих (на несколько сот тысяч нуклеотидов) и нарушает этот порядок. Его положение относительно остальных в данном
случае не консервативно.
Нетрудно заметить, что рамки с индексами 2, 3 и 6, 7 перекрываются, но это не должно нас смущать по следующим причинам.
Если рассмотреть точные координаты выровненных участков *
(столбцы 7,8 - начало и конец выравнивания для нашего преполагаемого белка; 9,10 - для белка E.coli из базы данных)
видно, что участки 6 и 7 с немалой долей вероятности гомологичны двум близлежащим фрагментам гена envZ,
т.е., не исключено, что рамки были разделены ошибочно (например, из-за лишнего или утерянного при секвенировании нуклеотида)
и на самом деле представляют собой одну: просто рамка считывания в какой-то момент начинает "видеть" другую, неверную последовательность,
а стоп-кодон случайным образом "всплывает" в другом месте. Так что рамки могут рассматриваться только по отдельности.
В случае же с рамками 2 и 3, возможно, произошла аналогичная ошибка, из-за которой они, напротив, не разделились.