Самостоятельная работа по аннотированию участка генома.

Главная

I

Для получения неаннотрованного участка генома бактерии Streptococcus pneumoniae длиной 7000 нуклеотидов с началом в 7001 позиции была запущена следующая программа:
seqret -sask,
на вход которой был подан файл AAGY02000007.txt - скачанная запись EMBL для заданного AC. В качестве запрошенных программой начала и конца вырезаемого участка было введено соответственно 7001 и 14000.

II

Полный протеом Bacillus subtilis получен программой:
seqret sw:*_BACSU.
Индексные файлы для поиска программами пакета BLAST получены программой:
makeblastdb -in bacsu.fasta -out bs -dbtype prot.

III

Трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов с использованием стандартного для бактерий (-table 11) генетического кода и при условии, что открытой рамкой считалась последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном, были получены программой:
getorf -minsize 240 -find 1 -table 11.
В результате были получены 12 рамок считывания, 8 из которых прямого, а 4 - обратного направления.

IV

Сходные с этими трансляциями последовательности в протеоме B. subtilis были найдены программой:
blastp -query aagy.orf -db bs -evalue 0.001 -out aagy_bacsu -outfmt 6,
которая на выходе дает файл в табличном формате.

V

Программой grep ">" aagy.orf > names.txt были выделены названия открытых рамок считывания, которые затем были вставлены в таблицу Excel и с помощью функции "CONCATENATE" использовались для получения скрипта. Скрипт нужен для подсчета числа сходных последовательностей, найденных программой BLAST в протеоме B. subtilis для каждой из рамок считывания. Он был запущен таким образом:
chmod +x grep.scr
./grep.scr

VI

По выдаче скрипта и программы blastp была составлена следующая таблица, содержащую информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность. В ней также указан идентификатор самого близкого из найденных белков B. subtilis и E-value находки.
Название Начало Конец Направление BLASTP ID гомолога E-value
AAGY02000007_4 1519 3048 прямое 7 PTG3C_BACSU 1e-114
AAGY02000007_5 3149 4501 прямое 4 YESO_BACSU 2e-13
AAGY02000007_6 4705 5619 прямое 9 YURN_BACSU 2e-36
AAGY02000007_7 5638 6474 прямое 10 ARAQ_BACSU 8e-43

Гипотетические гены во фрагменте 7001–14000 записи AAGY02000007

3'-----------------------------------------------------------------------------------------------5'
5'--------------[=>PTG3C,1519-3048]--[=>YESO,3149-4501]--[=>YURN,4705-5619]--[=>ARAQ,5638-6474]--3'

Cравнение взаимного расположения предсказанных генов в исследуемом фрагменте и сходных аннотированных генов в геноме B. subtilis

Программой makeblastdb -in b.fasta -out bsna -dbtype nucl была создана база данных из генома B. subtilis и по ней с помощью команд
tblastn -query ptg3c.fasta -db bsna -out num1 -evalue 0.001 -outfmt 7
tblastn -query yeso.fasta -db bsna -out num2 -evalue 0.001 -outfmt 7
tblastn -query yurn.fasta -db bsna -out num3 -evalue 0.001 -outfmt 7
tblastn -query araq.fasta -db bsna -out num4 -evalue 0.001 -outfmt 7

были найдены координаты генов, кодирующих белки, наиболее сходные с трансляциями гипотетических генов S. pneumoniae:
Название белка Начало гена Конец гена Направление
PTG3C_BACSU 1457187 1459283 Прямое
YESO_BACSU 761662 762942 Прямое
YURN_BACSU 3349703 3348828 Обратное
ARAQ_BACSU 2940696 2939854 Обратное

Все найденные гены B. subtilis расположены далеко друг от друга, не в той последовательности, как гены S. pneumoniae, и среди них есть гены, идущие в обратном направлении, в то время как в исследуемом участке генома S. pneumoniae таких нет. Это свидетельствует о неконсервативности расположения этой группы генов, а значит о незначительной функциональной связи кодируемых ими белков.


©Гущина Ирина