Самостоятельная работа по аннотированию участка генома




Дано: неаннотрованный участок генома бактерии Streptococcus pneumoniae (штамм TIGR4 ctg00822) из заданной записи EMBL с заданным началом, длиной 7000 нуклеотидов.
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии - Bacillus subtilis (сенной палочки).

Полный протеом B. subtilis получаем из Swiss-Prot командой seqret sw:*_BACSU. В указанный файл помещены последовательности всех белков сенной палочки, имеющих идентификаторы.
Создаем индексные файлы для поиска программами пакета BLAST с помощью команды formatdb.
Вырезаем фрагмент AAGY02000005 длиной 7000 нуклеотидов(координаты 28001...35001) с помощью команды seqret -sask.
Извлекаем из нашего фрагмента генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов командой:
getorf -sequence aa.fasta -minsize 240 -table 11 -find 1 -outseq aa.orf
В результате получили файл, содержащий все рамки считывания(10 рамок), удовлетворяющие заданным параметрам.
Далее производится поиск трансляций рамок считывания из выбранного фрагмента по протеому бактерии с помощью программы BLASTP(задан E-value<0.001), которая производит поиск по аминокислотной последовательности в протеоме. Выполняем команды:
makeblastdb -in bacsu.fasta -out bacsu -dbtype prot
blastp -query aa.orf -db bacsu -evalue 0.001 -out blastp -task blastp -outfmt 7
Создаем книгу Excel, включающую информацию обо всех открытых рамках считывания в нашем фрагменте генома.
Результат: таблица, содержащая информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность.

Рамка начало во фрагменте конец во фрагменте направление число сходных последовательностей идентификатор самого близкого из найденных белков B. subtilis E-value
AAGY02000005.1_1 33 1217 прямое 3 IMDH_BACSU 3e-164
AAGY02000005.1_2 2895 4145 прямое 4 YMFF_BACSU 7e-50
AAGY02000005.1_3 4145 5425 прямое 4 YMFH_BACSU 6e-65
AAGY02000005.1_4 5461 6288 прямое 1 YMFM_BACSU 2e-10
AAGY02000005.1_5 6287 6844 прямое 2 PGSA_BACSU 3e-40
AAGY02000005.1_8 2742 2374 обратное 1 YAAA_BACSU 1e-08
AAGY02000005.1_9 2374 1274 обратное 1 RECF_BACSU 4e-94

Гипотетические гены во фрагменте 28001–35001 записи AAGY02000005

                        -----[<= YAAA, 2374-2742]----- (перекрывание)
3'--------[<= RECF, 1274-2374]------------------------------------------------------------------------------------------------------5'

5'-[=> IMDH, 33-1217]------------------------------[=> YMFF, 2895-4145]----------------------[=> YMFM, 5461-6288]-------------------3'
                                                 (перекрывание) ------[=> YMFH, 4145-5425]--------------------[=> PGSA, 6287-6844]-

 

Для получения соответствующих данных для Bacillus subtilis, был скачан геном и произведен по нему поиск необходимых последовательностей.


3'--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------5'

5'-[=> YAAA,3206-3421]-[=> RECF,3437-4549]---[=> IMDH,15825-17378]-------------[=> YMFH,1742602-1743843]-[=> YMFF,1757037-1758314]-[=> YMFM,1761650-1762570]-[=> PGSA,1762623-17630201]-3'

На представленных схемах видно, что исследуемые гены в Bacillus subtilis располагаются на одной цепи, а не на двух, по сравнению с генами в Streptococcus pneumoniae. Следовательно, можно заключить о неконсервативности положений генов YAAA и RECF. Тем не менее эти два гена расположены очень близко друг к другу, но в разных порядках.
Остальные 4 гена являются консервативными по положению. Видно, что в обоих бактериях они идут в одинаковой последовательности друг за другом, между ними не очень большие расстояния. Тем не менее у Streptococcus pneumoniae мы видим попарное перекрывание генов YMFF и YMFH, YMFM и PGSA, чего не наблюдается у сенной палочки, хотя гены YMFM и PGSA расположены очень близко друг к другу. Но если принять во внимание общие протяженности цепей, то эти 4 гена Bacillus subtilis расположены не очень далеко.

Таким образом, можно предсказывать расположения генов белков в бактерии, используя данные о родственной бактерии.



© Alisa Garaeva