Самостоятельная работа по аннотированию участка генома.


Дано: неаннотрованный участок генома бактерии Streptococcus pneumoniae (штамм TIGR4 ctg00822).
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (сенной палочки).
Получение фрагмента генома S.pneumoniae из заданной записи EMBL (AAGY02000002) с заданным началом (35001) и длиной 7000 нуклеотидов:
seqret embl:AAGY02000002  -sask
   Begin at position [start]: 35001
       End at position [end]: 42000
        Reverse strand [N]: n
output sequence(s) : AAGY02000002.fasta

Определение того, где в данном фрагменте закодированы белки, похожие на известные белки бактерии Bacillus subtilis:

Задание 1.Определение инструментов для решения поставленной задачи:

Программы :


seqret - для вырезания нужной последовательности
getorf - для создания открытых рамок считывание
blastp - для поиска в данном фрагменте закодированых белков, похожих на известные белки бактерии Bacillus subtilis
grep - для подсчета и "вырезания" строк

Получение полного протеома B. subtilis из Swiss-Prot:

 
seqret sw:*_BACSU
output sequence(s) : bacsu.fasta

Создание индексных файлов для поиска программами пакета BLAST

makeblastdb -in bacsu.fasta -dbtype prot -out bacsu

Задание 2.Извлечение из данного фрагмента генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов с использованием стандартного для бактерий (bacterial) генетического кода, открытой рамкой считается последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном:

getorf -find 1 -minsize 240 -sequence AAGY02000002.fasta -outseq AAGY02000002.orf -table 11

Задание 3. Создание книги Excel, включающей информацию обо всех открытых рамках считывания в данном фрагменте генома:

Поиск сходных последовательностей для каждой открытой рамки считывания программой blastp в протеоме B. subtilis при условии E-value<0,001 :

blastp -query AAGY02000002.orf -db bacsu -evalue 0.001 -outfmt 7 -out blastpout

Подсчет для каждой открытой рамки считывания числа сходных последовательностей, полученных программой blastp :

Скрипт
Полученный скрипт был сохранен в "Unix format"

Запуск скрипта:

 chmod +x script.scr
  ./script.scr


Отчетный файл 

Задание 4. Таблица, содержащая информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность

Рамка считывания Начало-конец во фрагменте Направление Число сходных последовательностей, найденных программой blastp в протеоме при условии E_value меньше 0.001 Идентификатор самого близкого из найденных белков B. subtilis E-value находки
AAGY02000002_5 6986 - 6699 Обратное 2 SPX_BACSU 7e-18
AAGY02000001_7 6034 - 5711 Обратное 1 YRZL_BACSU 6e-24
AAGY02000001_8 5704 - 5288 Обратное 1 RUVX_BACSU 1e-44
AAGY02000001_9 5269 - 4967 Обратное 1 YRZB_BACSU 1e-17
AAGY02000001_10 4738 - 3458 Обратное 1 FOLC_BACSU 3e-70
AAGY02000001_12 2767 - 1238 Обратное 3 CLS1_BACSU 5e-59

Задание 5. Схематическое изображение положения на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в B. subtilis

Схема

Задание 6. Сравнение взаимного расположения предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки.

Все предполагаемые гены данного фрагмента расположены на одной из комплементарных цепей.Перекрывания не происходит, хотя они достаточно плотно упакованны (расстояние между генами,как правило, не превышает длину самих генов). Гомологичные им гены в геноме B. subtilis также расположены на одной из коплементарных цепей, за исключением гена белка SPX_BACSU. Некоторые из данных генов расположено довольно близко, но перекрывания опять же не происходит. Вцелом , как видно из схемы, расположение генов данных белков и белков гомологичных им не консервативно: даже если учитывать тот факт, что геном бактерий кольцевой , все равно гены белков FOLC_BACSU и CLS1_BACSU меняют свой порядок, а ген белка SPX_BACSU вообще находится на другой комплементарной цепи. Кроме того, расстояния между генами данных белков (не всех) в полном геноме значительно больше, что позволяет говорить о наличие между ними генов других белков.
Но интересно отметить, что гены данного фрагмента гомологичные генам белков: YRZL_BACSU, RUVX_BACSU и YRZB_BACSU располагаются на данном фрагменте в том же порядке , что и сами гены этих белков в геноме B. subtilis, при этом в обоих случаях растояния между соседними генами не превосходят 20 нуклеотидов и примерно пропорциональны . Т.е. участок с генами белков (или с генами гомологичных белков) -[<= YRZL]-[<= RUVX]-[<= YRZB]- можно считать консервативным. А т.к. близко расположенные гены у бактерий транскрибируются одновременно, то можно предположить, что данные белки связаны друг с другом функцией.

Задание 7. (*)

На мой взгляд, достаточно интересно обратить внимание на эволюцию расположения данных генов.Так , например, гены гомологичные генам белков: FOLC_BACSU и CLS1_BACSU, вероятно, изменили свой порядок в процессе транслокации. А ген белка гомологичного белку SPX_BACSU в результате инверсии и транслокации "перевернулся" и "перешел" на другую цепь.


   

© Алиса Муравьева. Все права защищены.