Третий семестр

Главная
Обо мне
Проекты
Заметки

Важные сайты:

Сервер kodomo

Официальный сайт МГУ

Официальный сайт ФББ

Standalone BLAST

Поиск в геноме участков, кодирующих белки, похожие на заданный

Работать будем с белком TRMB_BACSU(AC: O34522), для которого стоит с помощью программы BLAST найти последовательность. Аминокислотная последовательность trmb_bacsu.fasta была полученна с помощью команды:seqret sw:O34522 trmb_bacsu.fasta данного белка указана ниже:

>TRMB_BACSU O34522 tRNA (guanine-N(7)-)-methyltransferase (2.1.1.33) (BsTrmB)
    (tRNA (guanine(46)-N(7))-methyltransferase) (tRNA(m7G46)-methyltransferase)
	MRMRHKPWADDFLAENADIAISNPADYKGKWNTVFGNDNPIHIEVGTGKGQFISGMAKQN
	PDINYIGIELFKSVIVTAVQKVKDSEAQNVKLLNIDADTLTDVFEPGEVKRVYLNFSDPW
	PKKRHEKRRLTYSHFLKKYEEVMGKGGSIHFKTDNRGLFEYSLKSFSEYGLLLTYVSLDL
	HNSNLEGNIMTEYEEKFSALGQPIYRAEVEWRT

Далее для файла gt_genome.fasta(файл с полный геном бактерии Geobacillus thermodenitrificans) созданим индексный файл пакеты BLAST+. Используем команду: makeblastdb -in gt_genome.fasta -dbtype nucl

Теперь проведем поиск в полном геноме бактерии Geobacillus thermodenitrificans участков кодирующие белки похожие на O34522. Воспользуемся командой tblastn -query trmb_bacsu.fasta -db gl_genome.fasta -evalue 1e-03 -out t_g.txt и получим файл t_g.txt с информицией об участка. Результаты приведены в Таблице 1.

=

Таблица 1. Поиск гомологов белка TRMB_BACSU в геноме бактерии Geobacillus thermodenitrificans.

Поиск гомологов некодирующих последовательностей программой BLASTN

По этапам:

  • blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1E-02 -outfmt 6 -out trna_gt.txt получили файл trna_gt.txt время работы:

    real 0m0.645s

    user 0m0.372s

    sys 0m0.224s

  • grep ">" trna_bacsu.fasta > colon.xls мы поличили колунку состоящую из названий входных последовательностей
  • С помощью скрипта было полученно число находок для каждой последовательности. Результаты приведены в таблице.
  • Поиск гомологов при изменённых параметрах программы BLASTN

    Повторим предыдущии этапы еще два раза, но с другими параметрами. В первый раз изменим весовую матрицу, то есть параметры -reward и -penalty. Установим -reward 5 и -penalty -4 + поменяем параметры -gapopen и -gapextend.

    Во второй раз, оставив те же (изменённые по сравнению со значениями по умолчанию) значения параметров -reward, -penalty, -gapopen и -gapextend, поменяем также значение параметра -word_size на минимально возможное(-word_size 4).

  • blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1E-02 -word_size 11 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -out 2tra.txt
  • real 0m0.780s

    user 0m0.480s

    sys 0m0.216s

  • blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1E-02 -word_size 4 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -out 2_2tra.txt
  • real 0m40.808s

    user 0m40.488s

    sys 0m0.240s

    Совместные результаты приведены в Таблице 2.

    =

    Таблица 2. Поиск гомологов белка TRMB_BACSU в геноме бактерии Geobacillus thermodenitrificans с разными параметрами.

    Анализ результатов

    Из Таблице 2 видно, что с изменением параметров колличество гомологичных последовательностей увеличивается. Это все благодаря тому, что зменения такого рода приводят к увиличению чувствительности и улучшению поиска(можно найти более далеких гомологов, имеющих короткие участки совпадения последовательностей).

    При поиске с -word_size 4 мы получаем гомологи, которые не находятся при поиске с -word_size 11. В ходе поиска использоваласись следующие команды:

    seqret fasta::gt_genome.fasta[155340:155393] fasta::1_golomogy.fasta координаты с 155340 по 155393 в бактерии Geobacillus thermodenitrificans

    seqret fasta::trna_bacsu.fasta:BSn5_t20966 fasta::1_trna.fasta

    needle 1_golomogy.fasta 1_trna.fasta -out alig.txt полученное выранивние приведено ниже:

    				# Aligned_sequences: 2
    # 1: CP000557
    # 2: BSn5_t20966
    # Matrix: EDNAFULL
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 77
    # Identity:      42/77 (54.5%)
    # Similarity:    42/77 (54.5%)
    # Gaps:          23/77 (29.9%)
    # Score: 151.5
    # 
    #
    #=======================================
    
    CP000557           1 -------tagctcagc--ggtagagcaaccggctgttaaccggtaggtcg     41
                                |||||||||  |.||||||...||.|||.|||.||..||||||
    BSn5_t20966        1 gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcg     50
    
    CP000557          42 taggttcgaatcc--------------     54
                         ..|||||||.|||              
    BSn5_t20966       51 gtggttcgagtccactcaggcccacca     77
    				

    Как и следовало ожидать, совпадающих участков не очень много, но назвать выравнивание плохим, достаточно сложно. Так как нет особо больших консервативных участков (максимально 3 триплета) и большое количество гепов участки на концах(последовательность нуклеотидов, а не белков, у кторох концевые участки в большенсве своем всегда различны), можно пологать что эти последовательности являются очень далекими гомологами друг другу. Проаннотировав, гомологичный участок в поле FT записи EMBL, было получено, что продуктом этого гена(155333..155407) является tRNA-Asn.

    Время работы программы BLAST

    Как же измененяется время работы программы при изменении параметров? Для этого при запуске на kodomo в командной строке перед всей командой написала слово time(это все есть выше). Время работы увеличивается при добавлении команд связаных с укорочением длины слова при поиске. При изменении весовой матрицы, работа программы меняется не столько значительно.

    © Medvedev Dima 2012; дата последнего обновления 15.12.2013