Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. Мы знаем аминокислотную последовательность белка YBEY_ECOLI из Escherichia coli K-12 в формате fasta . Задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

    Создим в своей рабочей директории индексные файлы пакета BLAST для поиска по геному X.campestris с помошью команды
    formatdb -i xc_genome.fasta -p F -n xc

    -i   входной файл
    -p   формат последовательности: F - нуклеотидная
    -n   базовое имя
        

    Выберем подходящую для решения данной задачи программу из пакета BLAST - TBLASTN Поиск гомологов белка в неаннотированных нуклеотидных последовательностях и проведем с ее помощью поиск с порогом на E-value 0,001.
    blastall -p tblastn -d xc -i ybey_ecoli.fasta -o xc_tblastn.txt -e 0.001

    -p  выбранная программа из пакета
    -d  базовое имя
    -i  входной файл - последовательность белка
    -o  выходной файл
    -e  E-Value
    
    Получим файл xc_tblastn.txt

    По результатам поиска заполним таблицу.

    Поиск гомологов белка YBEY_ECOLI в геноме X.campestris

    Число находок с Е-value<0,001 1
    Характеристика лучшей находки:
       E-value находки 9e-32
    AC соответствующей записи EMBL AE012341
    Координаты выравнивания в записи EMBL 1149-1577
    Координаты CDS в записи EMBL 1095..1580
    AC UniProt для этого CDS (если есть) Q8P8B2

  3. Аналогичный поиск сразу в нескольких геномах
  4. Создайте в своей директории индексные файлы BLAST для поиска по всем трем геномам сразу.
    formatdb -i pm_genome.fasta" "st_genome.fasta" "xc_genome.fasta -p F -n pm_st_xc
    С помощью выбранной ранее программы проведите поиск по трем геномам.
    blastall -p tblastn -d pm_st_xc -i ybey_ecoli.fasta -o 3tblastn.txt -e 0.001
    Общее число находок - 3, с E-value 1e-64, 6e-54 и 2e-31. Находка из исходного генома (X.campestris) только третья, хотя значение E-value сильно не изменилось.

  5. Поиск гомологов с помощью программы BLASTN
  6. Создайте в своей рабочей директории fasta-файл с последовательностью из генома E.coli, кодирующей ваш белок, найденный с помошью системы SRS: ссылка на страницу SRS, полученный файл - ybey_embl.fasta

    Поищем гомологов этого гена в трёх геномах программой BLASTN.
    blastall -p blastn -d pm_st_xc -i ybey_embl.fasta -o blastn.txt -e 0.001
    E-value лучшей находки - 2e-70, соответствующее выравнивание - в отдельном файле,организм - Salmonella typhimurium, аннотацию соответствующего фрагмента генома ae008727.entret получили с помошью команды
    seqtet embl:AE008727 -auto
    В полученном файле нашли нужный фрагмент:

    FT   gene            complement(101..591)
    FT                   /gene="ybeY"
    FT                   /note="synonym: STM0668"
    FT   CDS             complement(101..574)
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="ybeY"
    FT                   /product="putative metal-dependent hydrolase"
    FT                   /note="hypothetical protein in cutE-corC intergenic region.
    FT                   (SW:YBEY_SALTY)"
    FT                   /db_xref="GOA:O87574"
    FT                   /db_xref="InterPro:IPR002036"
    FT                   /db_xref="UniProtKB/Swiss-Prot:O87574"
    FT                   /protein_id="AAL19619.1"
    FT                   /translation="MSQVILDLQLACENHAGLPDEAQFQRWLDGVIPQFQEEAEVTIRL
    FT                   VDEAESHDLNLTYRGKDKPTNVLSFPFEAPAGIEMPLLGDLIICRQVVEQEAQEQSKPL
    FT                   EAHWAHMVVHGSLHLLGYDHIDDDEAEEMESLETEIMLAMGYEDPYIAEKIAE"
    
    

    Программа blastn нашла только одно приемлимое выравнивание (всего 2, но второе с относительно большим E-Value и всего 40 нп). Тем не менее, это наверняка гомолог, что видно по аннотации - по имени гена, по описанию продукта, по графе note. Таким образом, поиск с помошью BLASTN дает хорошие результаты с маленьким E-Value, в то время как TBLASTN может найти более дальних гомологов.