Поиск организма по фрагменту нуклеотидной последовательности Последовательность:

>24
ctgtcgaggatcaacgccgaccttaaaaaggcgaaggtcagcatcatcgggatatccaac
gacctcacgttcaccgactatttagaccccagggttaagtcctcgctgggcgaggaagag
atcatattcccgccatacaacgccgaccagctgcgagacattttggagcagcggagcaag
atggccttcaaggataacaccctggagccggcggtgatcccgctgtgcgcggcgttcgcg
gcccaggagcacggcgacgcccggaaggcgctggacctgctccgagtttctgccgagctg
C помощью программы blastn, алгоритма megablast было определено: Accession: NC_013665
Organism: Methanocella paludicola SANAE
координаты данного фрагмента в записи: 1145- 1444
кодирующий: cell division control protein 6 homolog [Methanocella paludicola SANAE]
Поиск гомолога белка человека в слоне
Чтобы получить полный список белков человека, идентификаторы которых начинаются с определенной буквы, использовала команду
EMBOSS: infoseq sw:xb_human -only -name -desc -out file_name.txt.
Файл с последовательностью белка с идентификатором BTF3_HUMAN получила используя команду
seqret sw:btf3_human -auto
>BTF3_HUMAN P20290 Transcription factor BTF3 (RNA polymerase B transcription factor 3) MRRTGAPAQADSRGRGRARGGCPGGEATLSQPPPRGGTRGQEPQMKETIMNQEKLAKLQA QVRIGGKGTARRKKKVVHRTATADDKKLQFSLKKLGVNNISGIEEVNMFTNQGTVIHFNN PKVQASLAANTFTITGHAETKQLTEMLPSILNQLGADSLTSLRRLAEALPKQSVDGKAPL ATGEDDDDEVPDLVENFDEASKNEAN
При поиске сайта выбрала чекбокс "spliced translated nucleotide search", что позволило искать белок полностью. Было получено 8 хитов, выбрала лучшую находку.
  • Identity(%): 100
  • e-value:3e-22
  • alignment length: 55
  • target length:3573
  • координаты гена:76141952-76125524
  • количество интронов: 1
    Поиск некодирующих последовательностей программой BLAST
    Для бактерии Leptothrix chlodnii была получена последовательность глициновой тРНК, которая закодирована в геноме по координатам 225895-228036 Далее провели поиск гомологов данной последовательности по всем бактериям, относящимся к тому же порядку, что и Leptothrix cholodnii, т.е по Burkholderiales.Поиск проводился по базе данных nr(Nucleotide collection). Такой поиск провели с проводили тремя разными вариантами:
    Алгоритм Число находок e-value<0.001 Параметры
    megablast 71 длина слова = 28
    match/mismatch = 1/-2
    blastn 100 длина слова = 11
    match/mismatch = 2/-3
    (параметры по умолчанию)
    blastn 100 длина слова = 7
    match/mismatch = 1/-1
    Меньше находок было при использовании алгоритма megablast, т.к он ищет максимально близкие последовательности, чем объясняются его параметры, в то время, как blastn c параметрами по умолчанию включает в выдачу и менее схожие последовательности, тем самым охватывая записи полных геномов для большого числа бактерий из Burkholderiales.
    Сравнение программ BLASTN и MegaBLAST
    Заметим, что в результате поиска megablast обнаружено 21 род бактерий, а в blastn 26( в выравниваниях blastn содержатся выравнивания megablast).
    Также они отличаются и параметрами алгоритма(длина слова megablast=28, когда у blastn=11).
    Если рассматривать длину выравнивания, то в megablast= 2142 нуклеотида, кроме родов Acidovorax =2135 и Rubrivivax = 2120,а в blastn=2142, исключение Methylibium petroleiphilum PM1=2123. Данные подтверждают, что megablast использует более длинное "слово", чем blastn.
    © Boskhomdzhieva Baina, 2012