Standalone BLAST

Поиск в геноме участков, кодирующих белки, похожие на заданный

Был проведен поиск гомолога имидазолонпропионазы из Bacillus subtilis (P42084) в геноме бактерии Geobacillus thermodenitrificans.

Для этого сначала была создана нуклеотидная база данных на основе полного генома Geobacillus thermodenitrificans при помощи команды:
makeblastdb -in gt_genome.fasta -dbtype nucl.

По полученной базе данных программой tblastn был проведен поиск гомолога имидазолонпропионазы командой:
tblastn -query P42084.fasta -db gt_genome.fasta -out tblastn.out -evalue 0.001 В полученном файле оказалось выравнивание и данные о найденном гомологе (см.Таблица1)

Таблица 1
Число находок с E-value < 0,001 1
E-value лучшей находки 7e-120
Название последовательности с лучшей находкой Geobacillus thermodenitrificans NG80-2, complete genome
Координаты лучшей находки (от-до) 1292375-129361
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой 100%


Поиск гомологов некодирующих последовательностей программой BLASTN

Определим, сколько гомологов каждой тРНК (из файла trna bacsu.fasta) содержится в геноме бактерии Geobacillus thermodenitrificans. Для этого запустим BALSTN со следующими парамтрами:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna.out outfmt 6 -evalue 0.01
Для того,чтобы узнать, сколько находок для конкретной тРНК выполним команду:
grep -c 'BSn5_t20894' trna.out. полученный файл

grep ">" trna_bacsu.fasta > trna.xlsx - создадим колонку из названий входных последовательностей и импортиуем ее в Excel. Теперь сделаем то же самое для всех последовательностей. Последством скрипта получим файл и импортируем его в Excel.

Поиск гомологов при изменённых параметрах программы BLASTN

Выполним то же самое, что и в предыдущем задании, но с измененными параметрами:

  • изменили весовую матрицу
    blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna2.out -outfmt 6 -evalue 0.01 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
  • уменьшили размер затравки до минимальной
    blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna3.out -outfmt 6 -evalue 0.01 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
  • уменьшили размер затравки до минимальной при весевой матрице по умолчанию
    blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna4.out -outfmt 6 -evalue 0.01 -word_size 4

    В итоге были получены еще 3 столбца. Итоговый файл

    Анализ результатов

    Была выбрана глутаминовая тРНК BSn5_t20894 tRNA-Gln. Ее последовательность получена командой seqret -sask и выровнена с последовательностью, кодирующей ту же тРНК в геноме B. subtilis, с помощью команды needle. Полученное выравнивание и информация о нем привдены ниже.

    CP000557           1 ------atagccaagtggtaaggcagaggtctgcaaaacctttacccc--     42
                               |||||||||.|||||||||..||        ||.||.||.||  
    		BSn5_t20894        1 tgggctatagccaagcggtaaggcaatgg--------actttgactccgt     42
    
    		CP000557          43 ------cggttcgaatccgggt-------     58
                               .|||||||||||.|.|       
    		BSn5_t20894       43 gatcgttggttcgaatccagctagcccag     71

  • Gap_penalty: 10.0
  • Extend_penalty: 0.5
  • Length: 79
  • Identity: 41/79 (51.9%)
  • Similarity: 41/79 (51.9%)
  • Gaps: 29/79 (36.7%)
  • Score: 142.0


    © Андреева Анна, 2012 (Последнее исправление: 14.02.2014)