Программы пакета BLAST для работы с нуклеотидными последовательностями.

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. Нам известна аминокислотная последовательность моего белка SYC_ECOLI из Escherichia coli K-12.

    Определим закодированы ли похожие белки в геноме Pasteurella multocida, не пользуясь аннотацией генома.

    Подходящая для решения данной задачи программу из пакета BLAST - TBLASTN . Проведем с ее помощью поиск с порогом на E-value 0,001.

    formatdb -i pm_genome.fasta -n index -p F
    blastall -p tblastn -d index -i syc_ecoli.fasta -e 0.001 > syc_ecoli.out
    

    Поиск гомологов белка P21888 в геноме Pasteurella multocida

    Число находок с Е-value<0,001 2
    Характеристика лучшей находки :  
    E-value находки 0.0
    Название геномной последовательности AE006134 Pasteurella multocida subsp. multocida str. Pm70 section 101 of 204 of the complete genome.
    Координаты выравнивания(-ий) в найденной последовательности 2994 - 4370
    Опции:
    -p tblastn- поиск осуществляется по известной белковой последовательности среди нуклеотидных последовательностей
    -d pm- программой используются индексные файлы, созданные ранее, с базовым именем pm
    -i syc_ecoli.fasta- последовательность белка, подаваемая на вход программе
    

  3. Нахождение записи EMBL по последовательности с помощью программы BLASTN
  4. Определим AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога моего белка, а также координаты этого гена согласно аннотации EMBL.

    Получим участок последовательности генома Pasteurella multocida (найденый как лучший) в отдельном файле :

    seqret -sask
    Reads and writes (returns) sequences
    Input (gapped) sequence(s): pm_genome.fasta:AE006134
    Begin at position [start]: 2994
    End at position [end]: 4370
    Reverse strand [N]: N
    output sequence(s) [AE006134.fasta]: AE006134.fasta
    

    На сайте EBI запустим поиск этой последовательности в банке "EMBL standard prokaryote".

    На страничке "Bioinformatic tools" пройти по гиперссылке "BLAST" и выбрать "NCBI-BLAST2 Nucleotide" (или "WU-BLAST2 Nucleotide").
    Нужные параметры стоят на странице сервиса по умолчанию. Выбрать нужный банк в меню "Database". Последовательность скопировать из файла в окошко.
    

    AC : AE004439

    координаты в аннотации: 1115472 - 1116848

    Запись из EMBL получим при помощи команды:

    entret embl:AE004439 -auto
    

    FT   CDS             1115472..1116851
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="cysS"
    FT                   /locus_tag="PM0945"
    FT                   /product="CysS"
    FT                   /db_xref="GOA:P57890"
    FT                   /db_xref="HSSP:1LI5"
    FT                   /db_xref="InterPro:IPR014729"
    FT                   /db_xref="UniProtKB/Swiss-Prot:P57890"
    FT                   /protein_id="AAK03029.1"
    FT                   /translation="MLKIFNTLTREKEIFKPIHANKVGMYVCGITVYDLCHVGHGRTFV
    FT                   CFDVIARYLRYLGYDLTYVRNITDVDDKIIKRALENNETCNQLVEKMIAEMHKDFDALN
    FT                   VLRPDVEPRATHHIPEIIAMIEKLIARQHAYVSANGDVMFDVESFKEYGKLSRQNLEQL
    FT                   QAGARVEIVNVKKNPMDFVLWKMSKPGEPSWPSPWGEGRPGWHIECSAMNHKELGEHFD
    FT                   IHGGGSDLTFPHHENEIAQSCCAHSGRYVNYWIHSGMIMVDREKMSKSLGNFFTLREVL
    FT                   SLYDAESVRYFLLTAHYRSQLNYSEENLNLAHSALERLYTALRGTDPTAVATEGQNYLA
    FT                   AFREAMDDDFNTPKAISVLFEIAREINKLKNEDILKANALAARLRELAGILGLLYQDPE
    FT                   QFLQSGSDNDEVALIEALIKQRNDARAAKDWASADAARNKLAEMGVVLEDNVNGTTWRK
    FT                   Q"
    

    Координаты CDS - 1115472..1116851

    Участок соответсвует записи в Swiss-Prot - P57890

  5. Поиск гомологов с помощью программы BLASTN
  6. Выберу запись из EMBL - U00096 - на нее ссылается белок P21888 (SYC_ECOLI).

    Получим соотвестствующую запись :

    entret embl:U00096 -auto
    

    Кодирующую последовательность поместим в отдельный файл :

    seqret "embl:U00096[553834:555219]"
    

    Полученный файл

    Проведем поиск гомологов в геноме Pasteurella multocida с помощью программы BLASTN.

    formatdb -i pm_genome.fasta -n index -p F
    blastall -p blastn -d index -i U00096.fasta -e 0.001 > U00096.out
    

    Результаты поиска гомологов в геноме Pasteurella multocida

    Число находок с Е-value<0,001 1
    Характеристика лучшей находки :  
    E-value находки 4e-05
    Название геномной последовательности AE006134 Pasteurella multocida subsp. multocida str. Pm70 section 101 of 204 of the complete genome.
    Координаты выравнивания(-ий) в найденной последовательности 3774 - 3820

    Количество находок у BLASTN больше, но если ограничивать по E-value < 0.001, то количество подходящих находок уменьшается. Длина этой лучшей находки существенно меньше, чем для находок из TBLASTN. Отличаются так же координаты выранивания. E-value находки в BLASTN маленькое, но большее лучшей находки в TBLASTN.


На начальную страницу

©Пискунова Юлия 2009