Задан неаннотированный фрагмент генома бактерии Streptococcus pneumoniae.
Задача состоит в определении того, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Bacillus subtilis. Для выполениея этого:

1. Получил полный протеом Bacillus subtilis из Swiss-Prot командой:
seqret sw:*_bacsu
Полный протеом представляет собой файл, в который помещены последовательности всех белков сенной палочки, имеющих идентификаторы (так как использовался Swiss-Prot, существование этих белков гарантировано).
Далее создал индексные файлы для поиска программами пакета BLAST по этому протеому с помощью команды:
makeblastdb -in bacsu.fasta -dbtype prot -out bac
Вырезал неаннотированный фрагмент из исходного генома бактерии Streptococcus pneumoniae длиной 7000 нуклеотидов (координаты 7001...14000) с помощью команды seqret -sask.

2. Из полученного фрагмента извлек трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов,со стандартным для бактерий (bacterial) генетическим кодом, причем учел, что открытая рамка начинается со старт-кодона и заканчивается стоп-кодоном. Использовал для этого программу getorf:
getorf -sequence pneu.fasta -minsize 240 -table 11 -find 1 -outseq translate.orf
В результате получил файл, содержащий все рамки считывания (12 рамок), удовлетворяющие заданным параметрам.

3. Далее произвел поиск трансляций рамок считывания из выбранного фрагмента по протеому бактерии с помощью программы BLASTP (задан E-value<0.001), которая производит поиск по аминокислотной последовательности в протеоме:
blastp -query translate.orf -db bac -out blast_result2.fasta -evalue 0.001 -outfmt -7
Следующим шагом должна быть обработка полученных данных.
Создал книгу Excel, включающую информацию обо всех открытых рамках считывания в выбранном фрагменте генома. Для каждой рамки указал: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных программой BLAST в протеоме Bacillus subtilis при условии E-value<0,001.
4.
Здесь представлены рамки считывания, для которых найдена хотя бы одна последовательность.


5.Гипотетические гены во фрагменте:
Streptococcus pneumoniae
  3'-----------------------------[<=CARB_BACSU,2040-5222]----------[<=CARA_BACSU,5529-6605]---[<=PYRB_BACSU,6658-6960]-------------5'

  5'-------------------------------------------------------------------------------------------------------------------------------3'


6. Сейчас необходимо выяснить, каким образом расположены в геноме Bacillus subtilis гены, гомологичные соответствующим в выше расположенном фрагменте. Для этого были скачаны, во-первых, этот геном, а во-вторых, в один fasta-файл три белковые последовательности, названия которых представлены в таблице выше.
Далее создал "нуклеиновые" индексные файлы из данного генома и воспользовался программой tblastn для поиска в нем участков ДНК, кодирующих данные белки (т.е. identity находок должно быть 100%, а evalue 0.0):
tblastn -query prot_bacsu.fasta -db bac_gen -out tblastn_result.fasta -evalue 0.001 -outfmt 7
Используя выдачу бласта, составил следующее представление:
Bacillus subtilis
  3'-------------------------------------------------------------------------------------------------------------------------------5'

  5'-----------------[=>PYRB_BACSU,1620476-1621387]---------------[=>CARA_BACSU,1622657-1623748][=>CARB_BACSU,1623736-1626948]-----3'
                                                                               перекрывание в 13 нуклеотидов
Данный результат показался сомнительным, так как не соответствует случаю с Streptococcus pneumoniae. Чтобы развеять собственные опасения того, что бласт не указывает направление цепи, я, на всякий случай, решил ту же задачу другим путем, используя следующие программы:
getorf -sequence b.fasta -minsize 240 -table 11 -find 1 -outseq bacsu_translate.orf # сначала сделал все "трансляты" генома Bacillus subtilis
blastp -query bacsu_translate.orf -subject prot_bacsu.fasta -out blast_bacsu_result.fasta -evalue 0.001 -outfmt 7 # а затем "белковым" бластом начал искать три известных белка среди этих "транслятов"
Результаты получились идентичными, т.е действительно у сенной палочки 3 гена, гомологичных соответствующим у Streptococcus pneumoniae, расположены на другой цепи, но в том же порядке считая от одного конца. Это не означает, что в данных организмах они лежат на разных цепях, просто для расшифровки генома одной бактерии была выбрана одна цепь, а для другой - комплементарная ей.
Что консервативно в расположении этих генов у двух бактерий, так это их последовательность (в смысле, одинаковый порядок) и расположение двух первых генов считая от 3'-конца.
Между этими генами наблюдается, в результате такого поиска, пререкрывание в геноме Bacillus subtilis, которое, скорее всего, вызвано в мутации в стоп-кодоне первого гена и "удлинении" этого гена до следующего стоп-кодона в своей рамке считывания на территории следующего гена. И, действительно, у Streptococcus pneumoniae второй ген короче соответствующего у Bacillus subtilis на 15 нуклеотидов. В конечном счете, вероятность того, что мы правильно определяли расположения генов, не очень высока, так как использованные программы не самые точные.