Занятие 5. Предсказание генов в участке генома бактерии. Вариант #1

    #1.

    Поиск велся по нуклеотидным поседовательностям программой БЛАСТИКС. Выбор обусловлен тем, что изначально предложена нуклеотидная последовательность. ТБЛАСТИКС применяется для других целей, работает долго (как было написано в подсказках к заданию. Я пробовал провести поиск ТБЛАСТИКСом, но ничего вразумительного не получил — выравнивались маленькие фрагменты). БЛАСТИКС как раз и используется для поиска кодирующих участков в нуклеотидовых последовательностях. Найдено три последовательности с E-value < 0.001 и с процентом идентичнотси > 60%. Оставшиеся я посчитал не гомологичными — лучшая из оставшихся находок имеет процент идентичности 37%, участки выравнивания короткие. Судя по описаниям (в точности Nitrite reductase large subunit (EC 1.6.6.-), Flavorubredoxin reductase, DNA helicase) это белки выстречающиеся в большинстве организмов, выполняют консервативные функции и, поэтому имеют некоторые консервативные участки, которые и нашла программа БЛАСТИКС.

    Расположение найденных гомологов:

    3'------------------------------------------------[<=Q8ZQ01 , 2561-4000]-------5'
    5'--[=>Q8ZQ05 , 160-1461]-[=>Q7CQQ9 , 1847-2383]------------------------------3'

    2# Сравнение

    UniProt EMBL Позиция в геноме, заметки
    Q7CQQ9 AAL20141.1 [18696..19235]
    Similar to E. coli orf, hypothetical protein (AAC74194.1); Blastp hit to AAC74194.1 (179 aa), 94% identity in aa 1 - 178)
    Q8ZQ05 AAL20140.1 [17213..18517]
    Similar to E. coli respiratory NADH dehydrogenase (AAC74193.1); Blastp hit to AAC74193.1 (434 aa), 97% identity in aa 1 - 434; cupric reductase
    Q8ZQ01 AAL20145.1

    Complement [1617..5063]
    Similar to E. coli transcription-repair coupling factor; mutation frequency decline (AAC74198.1); Blastp hit to AAC74198.1 (1148 aa), 95% identity in aa 1 - 1148

    Записи всех генов в банках ЮниПрот и ЕМБЛ совпадают. Стоит заметить что в ЕМБЛ было найдено две записи полных геномов AE008752 и AE008753. Последний более длинный (Salmonella typhimurium LT2, section 57 of 220 of the complete genome, в то время как у AE008752 -- section 56 of 220). В результате белок Q8ZQ01 был найден только в нем.
    Вероятно данные гены (Q7CQQ9 и Q8ZQ05) наследуются совместно.

    Использовались: seqret, formatdb, blastall (blastx), more, needle (стандартные параметры).