Задача: определить, где в заданном фрагменте генома Regiella insecticola (из заданной записи EMBL, с заданным началом, длиной 7000 нуклеотидов) закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.
Из заданной мне записи EMBL AC200764 получил фрагмент генома Regiella insecticola с ... по ... нуклеотид (вспомнить начало!!!). Для этого воспользовался командами:
entret embl:ac200764 -auto (получил файл ac200764.entret)
seqret "embl:ac200764[x:y]" (получил файл ac200764.fasta)
Полный протеом Escherichia coli получил, выполнив команду:
seqret sw:*_ecoli ecoli.fasta (получил файл ecoli.fasta)
Далее создал индексные файлы для поиска программами пакета BLAST и осуществил поиск похожих с Escherichia coli белков в заданном фрагменте генома при помощи программы tblastn, которая ищет гомологов белка в неаннотированных нуклеотидных последовательностях:
formatdb -i ac200764.fasta -p f -n ri
blastall -p tblastn -d ri -i ecoli.fasta -o ecoli_homologs.txt
Извлек из заданного фрагмента генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. Для этого воспользовался программой getorf из пакета EMBOSS. При этом использовался стандартный для бактерий генетический код, открытой рамкой считалась последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном:
getorf -minsize 240 -find 1 -table 11
Finds and extracts open reading frames (ORFs)
Input nucleotide sequence(s): ac200764.fasta
protein output sequence(s) [ac200764.orf]:
После этого провел поиск сходных последовательностей в протеоме Escherichia coli. Для этого создал индексные файлы для поиска программами пакета BLAST и воспользовался программой blastp, которая ищет гомологов белковой последовательности в банке данных белков). Критерием находок считал E-value меньше 0.001:
formatdb -i ecoli.fasta -p t -n ec
blastall -p blastp -d ec -i ac200764.orf -m 8 -o homol.txt -e 0.001
В результате получил файл homol.txt, в котором показаны рамки считывания, для аминокислотной последовательности которых найдены белки-гомологи среди белков кишечной палочки. Чтобы высчитать число находок для каждой рамки считывания создал скрипт, в результате работы которого получил файл с числами, записанными в столбик, где каждое число - количество находок для соответствующей рамки считывания.
В итоге создал книгу Excel, включающую информацию обо всех открытых рамках считывания в заданном фрагменте генома. Для каждой рамки указано: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных программой BLAST в протеоме Escherichia coli K12 при условии E-value<0,001.
Ниже приведена таблица, содержащую эту информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность, а также идентификатор самого близкого из найденных белков E. coli и E-value находки.
Рамка считывания |
№ начала во фрагменте |
№ конца во фрагменте |
Направление |
Число находок |
Идентификатор самого близкого из найденных белков E. coli |
E-value находки |
AC200764_1 |
25 |
474 |
прямое |
2 |
DAPA_ECOLI |
2e-51 |
AC200764_2 |
491 |
1537 |
прямое |
1 |
NLPB_ECOLI |
2e-103 |
AC200764_3 |
1600 |
2352 |
прямое |
1 |
PUR7_ECOLI |
4e-106 |
AC200764_4 |
2428 |
2841 |
прямое |
1 |
SECG_ECOLI |
2e-42 |
AC200764_5 |
3321 |
3812 |
прямое |
1 |
RIMP_ECOLI |
2e-64 |
AC200764_6 |
3839 |
5356 |
прямое |
1 |
NUSA_ECOLI |
0.0 |
AC200764_7 |
5359 |
6999 |
прямое |
6 |
IF2_ECOLI |
4e-173 |
Гипотетические гены во фрагменте x–y записи AC200764
5'---[=> DAPA_ECOLI, 25-474]---[=> NLPB_ECOLI, 491-1537]----[=> PUR7_ECOLI, 1600-2352]--
3'--------------------------------------------------------------------------------------
---[=> SECG_ECOLI, 2428-2841]-----[=> RIMP_ECOLI, 3321-3812]---[=> NUSA_ECOLI, 3839-5356]-[=> IF2_ECOLI, 5359-6999]--3'
---------------------------------------------------------------------------------------------------------------------5'
Гены в геноме E.coli
5'----------------------------------------------------------------------------------------------------------------
3'------[<= PUR7_ECOLI, 2594927-2595640]---[<= NLPB_ECOLI, 2595853-2596887]--[<= DAPA_ECOLI, 2596904-2597782]-----
------------------------------------------------------------------------------------------------------------------------------------------------3'
-[<= IF2_ECOLI, 3311364-3314036]--[<= NUSA_ECOLI, 3314061..3315548]--[<= RIMP_ECOLI, 3315576-3316028]-----[=< SECG_ECOLI, 3320195-3320527]------5'
Гены не перекрываются. Порядок расположения генов одинаков у DAPA_ECOLI, NLPB_ECOLI, PUR7_ECOLI и у SECG_ECOLI, RIMP_ECOLI, NUSA_ECOLI, IF2_ECOLI.
В геноме E.coli:
212 нуклеотидов между PUR7_ECOLI и NLPB_ECOLI.
16 нуклеотидов между NLPB_ECOLI и DAPA_ECOLI. (в Regiella insecticola между ними тоже 16 нуклеотидов, что говорит о консервативном расположении этой пары генов.)
713581 нуклеотид между DAPA_ECOLI и IF2_ECOLI.
24 нуклеотида между IF2_ECOLI и NUSA_ECOLI. (в Regiella insecticola между ними 2 нуклеотида)
27 нуклеотидов между NUSA_ECOLI и RIMP_ECOLI. (в Regiella insecticola между ними 26 нуклеотидов, что также говорит о консервативном расположении этой пары генов.)
4166 нуклеотидов между RIMP_ECOLI и SECG_ECOLI.