Программы пакета BLAST для работы с нуклеотидными последовательностями
Поиск в геноме участков, кодирующих белки, похожие на заданный
Известна аминокислотная последовательность
белка COAA_ECOLI из Escherichia coli K-12.
Задача: определить, закодированы ли похожие белки в
геноме другого организма, не пользуясь аннотацией генома.
В рабочей директории были созданы индексные файлы пакета BLAST для поиска
по геному P.multocida.
formatdb -i pm_genome.fasta -p F -n pm
Дальше посредством Putty была запущена программа TBLASTN с пороговым значением E-value 0,001.
blastall -p tblastn -d pm -i muth_ecoli.fasta -o out.txt -e 0.001
Результат работы программы - файл out.txt.
По результатам поиска была заполнена таблица:
Поиск гомологов белка muth_ecoli в геноме бактерии Pasteurella multocida
Число находок с Е-value<0,001 |
2 |
Характеристика лучшей находки: |
|
|
E-value находки |
e-113 |
AC соответствующей записи EMBL |
AE006212 |
Координаты выравнивания в записи EMBL |
2098 - 3009 |
Координаты CDS в записи EMBL |
2062 - 3012 |
Наименование белка |
COAA_PASMU |
Аналогичный поиск сразу в нескольких геномах
В директории были созданы индексные файлы BLAST для поиска по всем
трем геномам сразу. С помощью выбранной ранее программы был проведен поиск
по трем геномам. Результаты поиска содержатся в файле 3out.txt.
В этот раз было обнаружено 4 находки. Лучшей находкой теперь является находка с AC в EMBL AE008893 с E-value e-176.
Вторая находка с AC AE006212 найдена в геноме бактерии Pasteurella multocida и соответствует лучше находке предыдущего поиска. Однако значения E-value в этом поиске выше на 1 порядок.
Поиск гомологов с помощью программы BLASTN
В рабочей директории был создан fasta-файл с последовательностью из
генома E.coli, кодирующей белок COAA_ECOLI (для этого была взята запись M36321 EMBL,
на которую ссылается запись Swiss-Prot,в ней были найдены координаты
соответствующей CDS и вырезаны в файл coaa.fasta ).
Гомологи этого гена искались в трёх геномах программой
BLASTN с пороговым значением E-value 0.001. Результат работы программы - файл 3ga.txt .
Было обнаружено 2 находки, причем лучшая (AE008893 E-value e-124 ) является также лучшей находкой в предыдущем поиске по 3 геномам, а вторая (AE006212 E-value 2e-04) была лучшей находкой первого поиска, но ее e-value упало на ~100 порядков.
Выравнивание приведено ниже:
Query: 46 gccagaaacatgcttatgagtataaaagagcaaacgttaatgacgccttacctacagttt 105
||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||
Sbjct: 16788 gccagaaacatgcttatgagtataaaagagcaatcgttaatgacgccttacctacagttt 16729
Query: 106 gaccgcaaccagtgggcagctctgcgtgattccgtacctatgacgttatcggaagatgag 165
|| |||| ||||||||| || || || ||||| || || ||||| | | || ||||||
Sbjct: 16728 gatcgcagccagtgggctgcgcttcgcgattctgtgccgatgaccctgaccgaggatgag 16669
Query: 166 atcgcccgtctcaaaggtattaatgaagatctctcgttagaagaagttgccgagatctat 225
||||| | | ||||| |||||||||||| | ||| | ||||||||||| || || |||
Sbjct: 16668 atcgcgcagttaaaaggcattaatgaagatttatcgctggaagaagttgcagaaatatat 16609
Query: 226 ttacctttgtcacgtttgctgaacttctatataagctcgaatctgcgccgtcaggcagtt 285
|||||| | || |||||||| || |||||||| || || |||||||| |||||||| ||
Sbjct: 16608 ttacctctctcccgtttgctaaatttctatatcagttcaaatctgcgtcgtcaggctgtc 16549
Query: 286 ctggaacagtttcttggtaccaacgggcaacgcattccttacattatcagtattgctggc 345
|||||||||||||| || || ||||| || || || |||||||| |||||||| || |||
Sbjct: 16548 ctggaacagtttctgggcactaacggccagcgaatcccttacatcatcagtatcgcgggc 16489
Query: 346 agtgtcgcggtggggaaaagtacaaccgcccgtgtattgcaggcgctattaagccgttgg 405
|| ||||| ||||| ||||| || || || || || |||| ||| | | || || |||
Sbjct: 16488 agcgtcgcagtgggtaaaagcacgacagcacgcgttctgcaagcgttgctgagtcgctgg 16429
Query: 406 ccggaacatcgtcgtgttgaactgatcactacagatggcttccttcaccctaatcaggtt 465
|||||||| || ||||||||| |||| || ||||| |||||||| ||||| || |||||
Sbjct: 16428 ccggaacaccgccgtgttgaattgattaccacagacggcttcctccacccaaaccaggtg 16369
Query: 466 ctgaaagaacgtggtctgatgaagaagaaaggcttcccggaatcgtatgatatgcatcgc 525
|||||||||| || | |||||||| || || ||||| ||||||||||||||||| ||
Sbjct: 16368 ttgaaagaacgcgggttaatgaagaaaaaggggttccccgaatcgtatgatatgcaccga 16309
Query: 526 ctggtgaagtttgtttccgatctcaaatccggcgtgccaaacgttacagcacctgtttac 585
|||||||| || ||||| || ||||| || ||||| || ||||| || || || || ||
Sbjct: 16308 ctggtgaaattcgtttctgacctcaagtcgggcgtaccgaacgtgacggcgccagtctat 16249
Query: 586 tcacatcttatttatgatgtgatcccggatggagataaaacggttgttcagcctgatatt 645
|| ||| | ||||| ||||| || || || || |||||||| || | ||||||||||||
Sbjct: 16248 tctcatttgatttacgatgttattcctgaaggggataaaaccgtcgctcagcctgatata 16189
Query: 646 ttaattcttgaagggttaaatgtcttacagagcgggatggattatccacacgatccacat 705
|| ||||||||||| || ||||| ||||| ||||| ||||||||||| |||||||| |||
Sbjct: 16188 ttgattcttgaaggtttgaatgttttacaaagcggtatggattatcctcacgatccgcat 16129
Query: 706 catgtatttgtttctgattttgtcgatttttcgatatatgttgatgcaccggaagactta 765
||||||||||| |||||||| || ||||| || || || || ||||| || ||||| |
Sbjct: 16128 catgtatttgtctctgatttcgttgatttctctatttacgtggatgcgccagaagaactt 16069
Query: 766 cttcagacatggtatatcaaccgttttctgaaattccgcgaaggggcttttaccgacccg 825
|||||||| ||||||||||| || || |||||||||||||||||||| |||||||| ||
Sbjct: 16068 cttcagacgtggtatatcaatcgcttcctgaaattccgcgaaggggcgtttaccgatcct 16009
Query: 826 gattcctattttcataactacgcgaaattaactaaagaagaagc 869
|| || ||||| || || || ||||||||| |||||||||||||
Sbjct: 16008 gactcttatttccacaattatgcgaaattatctaaagaagaagc 15965
Работа с программой getorf пакета EMBOSS
Чтобы получить набор трансляций всех открытых рамок считывания данной пследовательности длиной более 30 нуклеотидов, считая открытой рамкой последователньость триплетов, начиная со старт- кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кодона:
getorf -minsize 30 -find 1 -table 11
Input nucleotide sequence(s): D89965.fasta
Protein output sequence(s): d89965.orf
Пятая в выдаче рамка считывания соответствует,приведённой в записи CDS.
>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
LTPWLRIQSTNPVQKYGA
Последняя в выдаче рамка соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL:
>D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
IAIGS |