Главная

Назад

Зачетное задание

Задан неаннотированный фрагмент генома бактерии Regiella insecticola.

Задача состоит в том, что нужно получить фрагмент генома Regiella insecticola из заданной записи EMBL с заданным началом, длиной 7000 нуклеотидов. Определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.

Для выполениея этого:
Получаем полный протеом E.coli из Swiss-Prot командой:

seqret sw:*_ECOLI
В указанный файл помещены последовательности всех белков кишечной палочки, имеющих идентификаторы.

Далее созданы индексные файлы для поиска программами пакета BLAST по этому протеому с помощью команды formatdb.

Вырезан фрагмент АС200764 длиной 7000 нуклеотидов(координаты 14001...21001) в файл ac200764_7000.fasta с помощью команды seqret -sask.

Из полученного фрагмента извлекаем трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов, стандартный для бактерий (bacterial) генетический код, открытой рамкой считаем последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.

Пользуемся для этого программой getorf:

 
getorf -sequence ac200764_7000.fasta -table 11 -minsize 240 -find 1

В результате получили файл, содержащий все рамки считывания(11 рамок), удовлетворяющие заданным параметрам.

Далее производится поиск трансляций рамок считывания из выбранного фрагмента по протеому бактерии с помощью программы BLASTP(задан E-value<0.001), которая производит поиск по аминокислотной последовательности в протеоме:

 
blastall -p blastp -d 3mg1 -i ac200764.orf -e 0.001 -m 8 -o blastp
Следующим шагом должна быть обработка полученных данных.

Создаем книгу Excel, включающую информацию обо всех открытых рамках считывания в выбранном фрагменте генома. Для каждой рамки указано: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных программой BLAST в протеоме E. coli K12 при условии E-value<0,001.

name(ORF)	   ID	        start	 end	 strand	  number of similar sequences	E-value                           
AC200764_1	RNPA_ECOLI	1116	1457	Straight	2	                1,00E-49
AC200764_2	YIDD_ECOLI	1436	1723	Straight	1	                5,00E-26
AC200764_3	OXAA_ECOLI	1710	3335	Straight	1	                     0.0
AC200764_4	LDCA_ECOLI	3365	4594	Straight	1	                1,00E-09
AC200764_6	SYI_ECOLI	6100	6999	Straight	3	                9,00E-08
AC200764_8	UBIG_ECOLI	5648	4923	Reverse 	3	                2,00E-105
AC200764_11	DNAA_ECOLI	489	1	Reverse 	1	                7,00E-57

Здесь представлены рамки считывания, для которых найдена хотя бы одна последовательность. Для построения данной таблицы использовались команды:
  grep '>' ac200764.orf > script.txt 
Только строки с рамками считывания были записаны в файл script.txt
Также был написан скрипт, который считал количество найденных последовательностей для каждой рамки.

Гипотетические гены во фрагменте 14001-21001 записи AC200764:

  Regiella insecticola
  3'---[<=DNAA, 1-489]---------------------------------------------------------[<=UBIG, 4923-5648]-------------5'

  5'-----------[=>RNPA, 1116-1457]---[=>OXAA, 1710-3335]---[=>LDCA, 3365-4594]---[=>SYI, 6100-6999]------------3'
                     --------[=>YIDD, 1436-1723]-----(перекрывание)

Для получения соответствующих данных для E.coli, был скачан геном и произведен по нему поиск необходимых последовательностей.
  E.coli
  3'---[<=ldcA, 1241389..1242303]------------------[<=dnaA, 3880349..3881752]----------------------------------------------------------5'

  5'----------------------------[=>ubiG, 2337589..2338311]----[=>rnpA, 3882516..3882875]--------------[=>oxaA, 3883099..3884745]-------3'
                                                                -----------[=>yidD, 3882839..3883096]-----(перекрывание)

Как можно видеть из представленных схем, RNPA и YIDD перекрываются в обоих геномах, но длина этого перекрывания разная. Оба гена находятся на прямой цепи, следом расположен ген OXAA, который в геноме Regiella insecticola перекрывается с YIDD. Из этого можно сделать вывод о консервативности расположения этих генов.

Ген DNAA в обоих геномах расположен на прямой цепи, положение UBIG и LDCA различно в этих геномах.







© Ксения Лежнина 2008