Самостоятельная работа по аннотированию участка генома.
Главная
I
Для получения неаннотрованного участка генома бактерии
Streptococcus pneumoniae длиной 7000 нуклеотидов с началом в 7001
позиции была запущена следующая программа:
seqret -sask,
на вход которой был подан файл AAGY02000007.txt
- скачанная запись EMBL для заданного AC. В качестве запрошенных программой
начала и конца вырезаемого участка было введено соответственно 7001 и 14000.
II
Полный протеом Bacillus subtilis получен
программой:
seqret sw:*_BACSU.
Индексные файлы для поиска программами пакета BLAST получены программой:
makeblastdb -in bacsu.fasta -out bs -dbtype prot.
III
Трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов с
использованием стандартного для бактерий (-table 11) генетического кода
и при условии, что открытой рамкой считалась последовательность, начинающаяся
со старт-кодона и заканчивающаяся стоп-кодоном, были получены программой:
getorf -minsize 240 -find 1 -table 11.
В результате были получены 12 рамок считывания, 8 из
которых прямого, а 4 - обратного направления.
IV
Сходные с этими трансляциями последовательности в протеоме B. subtilis
были найдены программой:
blastp -query aagy.orf -db bs -evalue 0.001 -out aagy_bacsu -outfmt 6,
которая на выходе дает файл в табличном формате.
V
Программой grep ">" aagy.orf > names.txt были выделены названия открытых
рамок считывания, которые затем были вставлены в таблицу
Excel и с помощью функции "CONCATENATE" использовались для получения
скрипта. Скрипт нужен для подсчета числа сходных
последовательностей, найденных программой BLAST в протеоме B. subtilis
для каждой из рамок считывания. Он был запущен таким образом:
chmod +x grep.scr
./grep.scr
VI
По выдаче скрипта и программы blastp была составлена следующая таблица,
содержащую информацию только для тех открытых рамок, для которых нашлась хотя
бы одна сходная последовательность. В ней также указан идентификатор самого
близкого из найденных белков B. subtilis и E-value находки.
Название |
Начало |
Конец |
Направление |
BLASTP |
ID гомолога |
E-value |
AAGY02000007_4 |
1519 |
3048 |
прямое |
7 |
PTG3C_BACSU |
1e-114 |
AAGY02000007_5 |
3149 |
4501 |
прямое |
4 |
YESO_BACSU |
2e-13 |
AAGY02000007_6 |
4705 |
5619 |
прямое |
9 |
YURN_BACSU |
2e-36 |
AAGY02000007_7 |
5638 |
6474 |
прямое |
10 |
ARAQ_BACSU |
8e-43 |
Гипотетические гены во фрагменте 7001–14000 записи AAGY02000007
3'-----------------------------------------------------------------------------------------------5'
5'--------------[=>PTG3C,1519-3048]--[=>YESO,3149-4501]--[=>YURN,4705-5619]--[=>ARAQ,5638-6474]--3'
Cравнение взаимного расположения предсказанных генов в исследуемом фрагменте
и сходных аннотированных генов в геноме B. subtilis
Программой makeblastdb -in b.fasta -out bsna -dbtype nucl была создана
база данных из генома B. subtilis и по ней с помощью команд
tblastn -query ptg3c.fasta -db bsna -out num1 -evalue 0.001 -outfmt 7
tblastn -query yeso.fasta -db bsna -out num2 -evalue 0.001 -outfmt 7
tblastn -query yurn.fasta -db bsna -out num3 -evalue 0.001 -outfmt 7
tblastn -query araq.fasta -db bsna -out num4 -evalue 0.001 -outfmt 7
были найдены координаты генов, кодирующих белки, наиболее сходные с
трансляциями гипотетических генов S. pneumoniae:
Название белка |
Начало гена |
Конец гена |
Направление |
PTG3C_BACSU |
1457187 |
1459283 |
Прямое |
YESO_BACSU |
761662 |
762942 |
Прямое |
YURN_BACSU |
3349703 |
3348828 |
Обратное |
ARAQ_BACSU |
2940696 |
2939854 |
Обратное |
Все найденные гены B. subtilis расположены далеко друг от друга, не в
той последовательности, как гены S. pneumoniae, и среди них есть гены,
идущие в обратном направлении, в то время как в исследуемом участке генома
S. pneumoniae таких нет. Это свидетельствует о неконсервативности
расположения этой группы генов, а значит о незначительной функциональной связи
кодируемых ими белков.
©Гущина Ирина