Зачётное задание за первый блок.
Предсказание генов в участке генома бактерии.
GO TO:

Начало
С использованием программы blastx мной был выполнен посик белков из неаннотированного фрагмента генома бактерии Yersinia intermedia (-кусок с 49001 по 53001) гомологичных белкам бактерии Salmonella typhimurium. Выбор программы обусловлен входными данными поиска: в наличии была нуклеотидная последовательность - кусочек неаннотированного генома Yersinia intermedia, и протеом Salmonella typhimurium.
Поиск был выполнен программой blastall со следующими входными параметрами:
blastall -p blastx -d sal -i Alf.fasta -o align -e 0.001
Для этого с использованием сервиса seqretN в SRS был предварительно получен фрагмент генома бактерии Yersinia intermedia (с 49001 по 53001нт)
А так же создана база данных sal - программой formatdb по полному протеому Salmonella typhimurium следующей коммандой:
formatdb -i salty_proteome -p T -n sal

Результаты поиска
Ниже приведены описания генов Salmonella typhimurium, куски которых попали в выдачу программы blastall, с score и e-value соответвующих выравниваний:
score(bits) expectation
P0A1Q6 HEM1_SALTY Glutamyl-tRNA reductase (EC 1.2.1.70) (GluTR).
CDS 732..1988
gene="hemA"
629 0.0
P0A287 RF1_SALTY Peptide chain release factor 1 (RF-1).
CDS 2029..3111
gene="prfA"
564 e-161
P30752 LOLB_SALTY Outer-membrane lipoprotein lolB precursor.
CDS 7822..8445
gene="lolB"
229 1e-60
P0A289 RF2_SALTY Peptide chain release factor 2 (RF-2).
CDS join(151..225,227..1249)
gene="prfB"
196 1e-50
P40816 HEMK_SALTY Protein methyltransferase hemK (EC 2.1.1.-) (P...
CDS complement(4296..5129)
gene="hemK"
189 9e-49
P30753 ISPE_SALTY 4-diphosphocytidyl-2-C-methyl-D-erythritol kin...
CDS 8442..9293
gene="ipk"
85 4e-17
Q7CR53 Q7CR53_SALTY Putative peptide chain release factor.
CDS 13466..14080
gene="prfH"
73 1e-13

Карта фрагмента и выводы
По проведённому посику была составлена карта генов исследуемого куска генома. В качестве названий генов были взяты имена наиболее вероятных гомологов из Salmonella typhimurium.

3'---<=ген hemk, 142-502-<=ген prfA, 684-1584-<=ген hemnA, 1780-2860-----------------------------------------------------5'
5'------------------------------------------------------------------------=>ген lolB, 3380-3740-=>ген ipk, 3870-4001-----3'

-находки гомологичные Q7CR53(prfH) и P0A289(prfB) не были включены в картинку из-за их вложенности в ген гомолога P0A287(prfA). Это не удивительно, ведь все три упомянутых белка - prfA, prfB, prfH - отностяся к группе release factor-s, найденый гомолог имеет очень высокую идентичность к prfA и по всей видимости выполняет ту же функцию. То же, что он определился как гомолог prfB и prfH, объясняется скорее всего лишь тем, что степень гомологичности prfA c prf -B и -H Salmonella typhimurium примерно такая же, что папарно у найденного в нашей бактерии гомолога с теми же prf -B и -H:
P0A289 RF2_SALTY Peptide chain release factor 2 (RF-2). 196 1e-50
Q7CR53 Q7CR53_SALTY Putative peptide chain release factor. 73 1e-13
для сравнения: при поиске гомологов prfA в геноме родной бактерии были полученны следующие значения:
P0A289 RF2_SALTY Peptide chain release factor 2 (RF-2). 198 6e-52
Q7CR53 Q7CR53_SALTY Putative peptide chain release factor. 70 2e-13
и более того проценты ident и positives в обоих случаях совпали.
(см файлы align и prf_sal)
Что касается остальных находок, то на мой вкус можно с уверенностью утверждать, что участки, содержащиеся в исследуемом участке генома Yersinia intermedia, пренадлежат гомологичным гомологичным указанным в находках белкам, за исключением потенциальных беклов, выравненных с белкми HEMK_SALTY, ISPE_SALTY, ибо несмотря на довольно высокое значение e-value, длины полученных локальных выравниваний не очень велики по сравнению с длинами этих бедков: 166 из 277(с 1-ого по 166 нт) в случае hemK при 66% идентичности на нём, и всего 44 из 283(с 5-ого по 48-ой нт) в случае ISPE_SALTY, правда при 88% идентичности в этом выравнивании. В первом случае выравнивание захватывает несколько важных функциональных доменов (cм interpro) и, возможно, в потенциальном гомологе HEMK_SALTY они тоже есть, но во втором случае выравненный участок не попадает ни на один из доменов базы INTERPRO, выделенных в ISPE_SALTY, что лишает даже возможности отнести его семейству киназ или других родственных им белков, к которым ISPE отностися. (см interpro, 12-ая схема). Для сравнения расположения предсказанных генов Yersinia intermedia и Salmonella typhimurium я аналогичную карту расположения выравненных генов Salmonella typhimurium:
Yersinia intermedia:
3'-[<=ген hemk, 142-502]-[<=ген prfA, 684-1584]-[<=ген hemA, 1780-2860]-------5'

5'-----------------------------------------------------------------------[=>ген lolB, 3380-3740]-[=>ген ipk, 3870-4001]------3' 

Salmonella typhimurium:
3'---------------------------------------[<-hemk 4296..5129]---------------------------------------------------5'

5'-[->hemA 732-1988]-[->prfA 2029-3111]---------------------[->lolb 7822..8445][->ipk 8442..9293]-------------3'
Из данной схемы хорошо видно, что в обоих организмах есть "спаренные" гены: [hemA]-[prfA] и [lolb]-[ipk] - в обоих случаях гены пары идут с почти одинаковым(очень небольшим) интервалом и в одинаковом порядке. Правда в Yersinia intermedia пара [hemA]-[prfA] перкочевали в другую цепь. Что же касается гена [hemk], то они лежат в обоих организмах на одинаковых цепях: "-". Более того интервал между ними по комплементарной с дуплетом [lolb]-[ipk] одинаков - порядка 2500 nbp

© designed by Alex Makarov