Самостоятельная работа

Последовательность действий

Cначала я получил полный протеом командой seqret sw:*_BACSU
Полнй протеом это файл с АК полседовательностями всех белков сенной палочки
Затем создал индексные файлы командой
makeblastdb -in 2npd_bacsu.fasta -dbtype prot -out bc
Участок генома Streptococcus pneumoniae (с 1 по 7000) длиной в 7000 нуклеотидов вырезал командой:
seqret embl:AAGY02000001 -sask
Трансляции всех открытых рамок считывания с необходимыми параметрами извлек командой :
getorf -sequence aagy02000002.fasta -minsize 240 -table 11 -find 1 -outseq result.orf
В результате получил файл result.orf с 13-ю рамками сыитывания.
Так как orf-файл и протеом бациллы это белковые последовательности, я пользовался программой blastp пакета EMBOSS
Команда:
blastp -query result.orf -db bc -out final.blast -evalue 0.001 -outfmt -7
После, пользуясь grep и средствами Excell, создал файл с описанием найденых рамок


Для выяснения расположения в геноме Bacillus subtilis гомологичных соответствующим в фрагменте 1-7000 генов я скачал геном палочки (после выполнения задачи по причине большого размера я его удалил)
и в один fasta-файл собрал белковые последовательности первых находок в выдаче бласта (представлены в таблице).
После создал индексные файлы из этого генома и с помощью программы tblastn произвел поиск участков, кодирующих данные белки (с identity 100% и evalue 0.0):
tblastn -query quest.fasta -db BC -out res.fasta -evalue 0.001 -outfmt 7
*возникла небольшая проблема: штаммов известно несколько, и чьего именно у нас протеом я не знаю. Поэтому identity, близкие к 100,я считал за 100.
Так же я просмотрел для каждой находки CDS в записи полного генома. Результат оказался анологичен (что не удивительно).


И, наконец, обработал все полученные данные.

Отчет

Таблица (вариант в .xlsx) для рамок со сходными последовательностями в B. subtilis:
Название	начало	конец	направление	число находок	Идентификатор	e-value
AAGY02000002_6	6996	6253	обратное		4	YULB_BACSU	3,00E-22
AAGY02000002_7	6237	5260	обратное		2	DEOR_BACSU	1,00E-32
AAGY02000002_8	5062	4745	обратное		2	PTJA_BACSU	4,00E-15
AAGY02000002_9	4732	4391	обратное		2	PTEB_BACSU	3,00E-17
AAGY02000002_11	4395	3076	обратное		3	PTJC_BACSU	7,00E-76
AAGY02000002_13	465	1	обратное		1	TAL_BACSU	8,00E-22

Схема расположения рамок на фрагменте:
3'-[<= TAL, 465-1]--------[<= PTJC, 4395-3076 }{ <= PTEB, 4732-4391 ]--[ <= PTJA, 5062-4745 ]-----[ <= DEOR, 6237-5260 ]------[ <= YULB, 6996-6253]-5'

5'--------------------------------------------------------------------------------------------------------------------------------------------------3'

Пояснения и рассуждения

Все сходные белки оказались в обратном направлении; при этом интересна ситуация с PTEB и PTJC: конец первого перекрывается с началом второго,
что, наряду с малым расстоянием между кодирующими участками говорит о плотной упаковке генов у прокариот, еще раз подтверждая отсутствие у них интронов,
а так же показывает полицистронную организацию их генома.

Но более вероятно что это ошибка getorf: он берет максимальную рамку считывания (по случайности старт кодон может попасться в конце другой рамки считывания),
хотя на самом деле рамка можеть быть меньше (тогда рамки не перекрываются).
Все гомологичные гены бациллы оказались на обратной цепи

Расстояние между генами для B.subtilis колеблется от 13 ( между генами PTJA_BACSU (2940725 - 2940387) и PTJC_BACSU (2942093 - 2940738), что не удивительно судя из их названия)
до более чем миллиона пар нуклеотидов. Такой разброс по всей вероятности связан с выбором только лучшей находки blast'а, поэтому возможно среди находок
с меньшим e-value найдутся и близкорасположенные последовательности.

Если сравнивать те находки, что у бациллы оказались рядом, с гомологами из S.pneumoniae, то у последней они оказываются разделены участком длиной в 350 остатков.

По полученным данным можно сделать вывод, что PTJA_BACSU и PTJC_BACSU и их гомологи у S.pneumoniae консервативны. О наличии консервативности у остальных генов
с уверенностью сказать ничего нельзя, ровно как и о ее отсутствии (так как рассматривались только лучшие находки бласта).
Порядок следования у бациллы немного отличается от такового у S.pneumoniae:
PTEB_BACSU "выбиваеться" из общего "строя" и находится где-то в районе полутора миллионов остатков (остальные - на 2.7-4.1 миллионов).
И здесь необходимо сказать, что находка PTEB_BACSU с меньшей идентичностью (40) встает как раз "на свое место",
при этом порядок следования этих гомологичных генов у палочки совпадает с таковым для S.pneumoniae.