Третий семестр
Работа с программами EMBOSSУпражнения
Сравнение аннотации генов белков в одной хромосоме бактерии с трансляциями длинных открытых рамок считывания.ВведениеОткрытая рамка считывания (Open Reading Frame - ORF) - это последовательность нуклеотидов, разбитая на триплеты для трансляции в последовательность аминокислот. Начинается инициирующим кодоном, заканчивается терминирующим. В зависимости от стартовой точки на двух цепях существует 6 рамок считывания. Если внутри рамки считывания встречается стоп-кодон, то белок с нее не считывается (рамка блокирована). В данном задании нужно получить все возможные трансляции открытых рамок, отвечающих заданным параметрам, и сравнить с аннотациями генов. Аннотации генов - это нахождение или предсказание функционально важных участков генома (например, кодирующих РНК, белок или регуляторный участок). Они создаются путем сравнения участков генома либо с транскриптомом, либо с протеомом. Иногда функцию участка генома становится вазможно узнать, выравнивая последовательность с уже известными геномами. Есть и другие подходы. В данной работе можно наглядно увидеть, что наличие открытой рамки (найденной программой) считывания еще не гарантирует существование белка. В качестве объекта изучения была выбрана бактерия, изучаемая в первом семестре, Amycolatopsis orientalis HCCB10007 Трансляция открытых рамок считыванияC сайта NCBI я скачала файл в формате GenBank (gb) с аннотированной последовательностью кольцевой хромосомы ДНК (ACCESSION: NC_021252). Далее, использовав программу getorf пакета EMBOSS, я получила список трансляций открытых рамок считывания данной хромосомы. Затем, чтобы сделать полученные данные более доступными, была использована программа infoseq пакета EMBOSS. C помощью следующего скрипта полученные данные были отформатированы. В итоге, былв создана таблица трансляций рамок считывания. Получения списка аннотированных генов белковВ браузере Genome NCBI была найдена и скачана таблица аннотированных генов белков. C помощью скрипта полученные данные были отформатированы. В итоге, былв создана таблица аннотированных генов белков . Так же был скачан файл c последовательностями всех белков, закодированных в хромосомной ДНК Amycolatopsis orientalis HCCB10007 Изучение полученных данныхОтсортированная по очередности в последовательности и по принадлежности к прямой или обратной цепи таблица представлена здесь. Ярко-желтым представлены рамки считывания, найденные программой getorf в прямой цепи. Бледно-желтым - в обратной. Ярко-синим показаны предсказанные белок-кодирующие гены в прямой цепи, бледно-синим - в обратной. Далее приведены несколько примеров расхождения между трансляциями открытых рамок, выполненных программой getorf и аннотированными участками генома, а так же их объяснение
Другие схожие примеры расхождений представлены в Excel-файле. Они выделены красным. Перекрывание антипараллельных рамок считыванияЧтобы найти примеры данного явления, нужно понимать, что getorf использует для обратной цепи нумерацию прямой, но читает ее в обратном порядке!. Будем считать перекрывание "нужным", если его длина больше 150н. Я решила выбрать те антипаралельные ORF, которые содержат аннотированные последовательности и перекрываются , так как рассмотрение любых пересечений антипараллельных рамок не имеет смысла, так как программа ищет все возможные рамки, но не факт, что они реализуются в геноме. Для этого я выбрала два рядом лежащих, но на противоположных цепях довольно длинных белка (на других не наблюдалось). Данные рамки изображены на рисунке7. Схему перекрывания можно посмотреть на рисунке8. Рамка с номером 77511 на обратной цепи имеет длину 483 и содержит последоватленьость, кодурющию белок malyl-CoA_lyase (закрашенный зеленый прямоугольник) перекрывается с рамкой с номером 300 имеющейц длину 766 и кодирующей белок serine/threonine_protein_kinase(закрашенный серый прямоугольник) 355 нуклеотидами. Показалось интересным, что для каждой белок-кодирующей последовательности есть рамка считывания, но на противоположной цепи (выделены желтым). Причина такого перекрывания - алгоритм getorf(стоп-стоп). При распозновании старт кодона данного перекрытия не было бы.
Чтобы найти другой пример перекрывания, когда рамка считывания перекрывается вследствии перекрывания генов, нужно найти перекрывания аннотированных последовательностей. Выбрав перекрывание соседних антипаралельных аннотированных последовательностей (с помощью Excel), я выяснила что больше всего они перекрываются в самом начале. Но на основе этих данных мне не удалось найти подходящий пример перекрывания ORF: везде где аннотированные последовательности перекрываются более чем на 150н, там рамка определена неподходяще (т.е. разбита с целью избежать коротких ORf). Однако нужно сказать, что такое явление довольно роспространено у организмов с маленькими геномами (бактерий и вирусов). Они вынуждены плотно упаковывать свои гены => происходит перекрывание.
Дата последнего изменения: 10.10.15
© 2014 Макарова Надежда |