Программы пакета BLAST.

Заданный мне геном - X. campestris (возбудитель чёрной гнили капусты).

Создание индексных файлов пакета BLAST для поиска по заданному геному:
formatdb -i xc_genome.fasta -p F -n xc
В результате получилось 3 индексных файла: xc.nsq, xc.nhr, xc.nin.
Известна аминокислотная последовательность заданного мне белка KAD_ECOLI  из Escherichia coli K-12 - KAD_ECOLI.fasta. Поставлена задача определить, не закодированы ли похожие белки в неаннотированном геноме другого организма. Для этого при помощи команды на kodomo-count:
blastall -p blastn -d xc -i KAD_ECOLI.fasta -o kad_xc.blast -e 0.001
Был получен файл kad_xc.blast. Был задан порог E-value 0,001. По данным из полученного файла была заполнена таблица:
Поиск гомологов KAD_ECOLI Геном Xanthomonas campestris
Число находок с Е-value<0,001 1
Характеристика лучшей находки:
  E-value находки 5e-39
AC соответствующей записи EMBL AE012446
координаты выравнивания(-ий) в записи EMBL 4122.. 3565
координаты CDS в записи EMBL (если они есть) 3559..4122
AC UniProt в записи EMBL Q8P5P5
Поиск по 3 геномам: Xanthomonas campestris, Salmonella typhimurium, Pasteurella multocida
E-value находки из предыдущего упражнения 1e-38
Число находок с Е-value<0,001 3
Кроме того, на сайте SRS по запросу в банке EMBL AE012446 в графе AC с параметром "Complete entries" была получена соответствующая запись EMBL:
FT   CDS             complement(3559..4122)
FT /codon_start=1
FT /transl_table=11
FT /gene="adk"
FT /product="adenylate kinase"
FT /note="identified by sequence similarity; putative; ORF
FT located using Blastx/Glimmer/Genemark"
FT /db_xref="GOA:Q8P5P5"
FT /db_xref="InterPro:IPR000850"
FT /db_xref="InterPro:IPR006259"
FT /db_xref="InterPro:IPR011769"
FT /db_xref="UniProtKB/Swiss-Prot:Q8P5P5"
FT /protein_id="AAM42561.1"
FT /translation="MRLVLLGPPGSGKGTQAARLKDTFQIPHISTGDLLRAEVAAGSPL
FT GLKAKEVMARGDLVSDEILLGMLEARLGQADVANGFILDGYPRNVAQANALDSLLSKIG
FT QPLDAVVQLDVASELLVERIAGRAKAEGREDDNPESVRKRLQVYTDSTAPVIGFYEQRG
FT KLARVDGVGSLDEVLERIGQALGR"
По этим данным заполнены ещё две строчки из таблицы. Проанализировав полученную информацию, делаем вывод, что был найден действительно искомый белок.
Для выполнения этого задания необходимо с помощью выбранной ранее программы провести поиск по трем геномам: геному сальмонеллы Salmonella typhimurium (возбудителя сальмонеллёза человека и мышиного тифа), геному возбудителя чёрной гнили капусты Xanthomonas campestris и геному бактерии Pasteurella multocida.  Для начала создадим в своей директории индексные файлы BLAST при помощи команды:
formatdb -i 'xc_genome.fasta st_genome.fasta pm_genome.fasta' -p F -n 3gen
Теперь проводим поиск в геноме участков, кодирующих белок  KAD_ECOLI для Xanthomonas campestris, Salmonella typhimurium и Pasteurella multocida при помощи команды:
blastall -p tblastn -d 3gen -i KAD_ECOLI.fasta -o kad_3gen.blast -e 0.001
В качестве результата получаем файл kad_3gen.blast.
Лучшая находка из предыдущего задания здесь третья:
>AE012446 AE008922 |AE012446| Xanthomonas campestris pv. campestris
str. ATCC 33913, section 354 of 460 of the complete
genome.
Length = 11287

Score = 155 bits (391), Expect = 1e-38
Identities = 90/218 (41%), Positives = 129/218 (59%), Gaps = 4/218 (1%)
Frame = -2
Мы видим, что e-value лучшей находки из предыдущего упражнения изменилось. Выясним, с чем это может быть связано.
Известно, что e-value считается по формуле: E=k*m*n*exp(-λ*S), где m - длина банка, n - длина query, S - вес, k,λ - параметры. Таким образом, E ~ m,n. В данном случае n - постоянная, а значение m увеличилось при поиске сразу в нескольких геномах, соответственно, и значение e-value тоже увеличилось: 5e-39 -> 1e-38.  Из второго занятия "Банк EMBL" был взят fasta-файл с геном , кодирующим заданный мне белок KAD_ECOLI - X03038.fasta.Найдем гомологов этого гена в трёх геномах программой BLASTN. Для этого зададим команду на kodomo-count: 
blastall -p blastn -d 3gen -i X03038_gene1.fasta -o result3.txt
Результатом работы данной команды стал  файл result3.txt. Лучшая находка:
Лучшая находка AE008718 AE006468 |AE008718|
Организм Salmonella typhimurium LT2
E-value e-175
Score 613 bits (309)
Длина секции генома 20938
Процент идентичности 87% (558/641)
Кодируемый белок KAD_SALTY
Соответствующее выравнивание:
Query: 1     atgcgtatcattctgcttggcgctccgggcgcggggaaagggactcaggctcagttcatc 60
|||||||| |||||||||||||||||||||||||| ||||| ||||||||||||||||||
Sbjct: 11605 atgcgtattattctgcttggcgctccgggcgcgggtaaaggaactcaggctcagttcatc 11664


Query: 61 atggagaaatatggtattccgcaaatctccactggcgatatgctgcgtgctgcggtcaaa 120
||||||||||||||||||||||||||||||||||||||||||||||| || || || |||
Sbjct: 11665 atggagaaatatggtattccgcaaatctccactggcgatatgctgcgcgccgcagtgaaa 11724


Query: 121 tctggctccgagctgggtaaacaagcaaaagacattatggatgctggcaaactggtcacc 180
|| ||||||||| |||| ||||| || ||||| || ||||| || || |||||||| |||
Sbjct: 11725 tcaggctccgagttgggcaaacaggcgaaagatatcatggacgccggtaaactggtgacc 11784


Query: 181 gacgaactggtgatcgcgctggttaaagagcgcattgctcaggaagactgccgtaatggt 240
|| ||||||||||| ||||||||||||||||| || || ||||||||||||||||| |||
Sbjct: 11785 gatgaactggtgattgcgctggttaaagagcgtatcgcccaggaagactgccgtaacggt 11844


Query: 241 ttcctgttggacggcttcccgcgtaccattccgcaggcagacgcgatgaaagaagcgggc 300
|| ||| ||||||| |||||||| || || |||||||| ||||||||||||||||||||
Sbjct: 11845 tttctgctggacggtttcccgcgcacgatcccgcaggctgacgcgatgaaagaagcgggt 11904


Query: 301 atcaatgttgattacgttctggaattcgacgtaccggacgaactgatcgttgaccgtatc 360
|| || |||||||| |||||||||||||||||||||||||||||||||||||||||
Sbjct: 11905 attgtcgtggattacgtgctggaattcgacgtaccggacgaactgatcgttgaccgtatt 11964


Query: 361 gtcggtcgccgcgttcatgcgccgtctggtcgtgtttatcacgttaaattcaatccgccg 420
|| ||||| ||||| || || | ||||| || ||||| |||||||| || |||||||||
Sbjct: 11965 gtgggtcgtcgcgtacacgccgcctctggccgcgtttaccacgttaagtttaatccgccg 12024


Query: 421 aaagtagaaggcaaagacgacgttaccggtgaagaactgactacccgtaaagatgatcag 480
||||| ||||||||||| ||||| ||||| ||||| ||||| ||||||||||| ||||||
Sbjct: 12025 aaagtggaaggcaaagatgacgtcaccggcgaagatctgaccacccgtaaagacgatcag 12084


Query: 481 gaagagaccgtacgtaaacgtctggttgaataccatcagatgacagcaccgctgatcggc 540
||||||||||| || ||||||||||| ||||| ||||||||||| || |||||||| |||
Sbjct: 12085 gaagagaccgttcgcaaacgtctggtggaatatcatcagatgaccgcgccgctgattggc 12144


Query: 541 tactactccaaagaagcagaagcgggtaataccaaatacgcgaaagttgacggcaccaag 600
|||||| |||||||| |||||||| || ||||||||||| ||||||||||| || ||
Sbjct: 12145 tactaccagaaagaagcggaagcgggcaacaccaaatacgctaaagttgacggtacgcag 12204


Query: 601 ccggttgctgaagttcgcgctgatctggaaaaaatcctcgg 641
| ||||| || || ||||| | |||||||||||||||||
Sbjct: 12205 gccgttgccgacgtgcgcgcagcgctggaaaaaatcctcgg 12245
 При помощи команды entret embl:AE008718 -auto получаем файл с записью EMBL: ae008718.entret.Находим в нём информацию о соответствующем гене:
FT   CDS             11605..12249
FT /codon_start=1
FT /transl_table=11
FT /gene="adk"
FT /product="adenylate kinase"
FT /EC_number="2.7.4.3"
FT /note="adenylate kinase. (SW:KAD_SALTY)"
FT /db_xref="GOA:P0A1V4"
FT /db_xref="InterPro:IPR000850"
FT /db_xref="InterPro:IPR006259"
FT /db_xref="InterPro:IPR007862"
FT /db_xref="InterPro:IPR011769"
FT /db_xref="UniProtKB/Swiss-Prot:P0A1V4"
FT /protein_id="AAL19442.1"
FT /translation="MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSEL
FT GKQAKDIMDAGKLVTDELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGIVVD
FT YVLEFDVPDELIVDRIVGRRVHAASGRVYHVKFNPPKVEGKDDVTGEDLTTRKDDQEET
FT VRKRLVEYHQMTAPLIGYYQKEAEAGNTKYAKVDGTQAVADVRAALEKILG"
Изучаемый ген расположен на прямой цепи, старт-кодон - 1 M(atg),  таблица генетического кода - 11, название гена - adk, название соответствующего продукта - adenylate kinase, информация о белке в записях в базах данных: GOA:P0A1V4, IPR000850, IPR006259, IPR007862,  IPR011769, UniProtKB/Swiss-Prot:P0A1V4, ID белка - AAL19442.1. Делаем вывод о гомологичности кодируемого данным геном белка KAD_SALTY заданному мне белку KAD_ECOLI.
! Находка из генома Xanthomonas campestris, полученная в первом задании находится в выдаче программы BLASTN на десятом месте с плохим e-value 1.5. Такой результат наводит на мысль о плохой достоверности поиска с помощью программы BLASTN.
Теперь заметим, что , когда мы искали сразу по трём геномам  участки, кодирующие белки, похожие на заданный, результатом поиска стали три последовательности (см. таблицу). Среди этих последовательностей мы рассматривали только одну - найденную при аналогичном поиске по одному геному. Однако, стоит отметить, что первая в списке находок была та же последовательность, что и являющаяся лучшей для поиска гомологов с помощью программы BLASTN:
AE008718 AE006468 |AE008718| Salmonella typhimurium LT2, section...   406   e-114
 Приведём здесь аннотацию и соответствующее выравнивание:
>AE008718 AE006468 |AE008718| Salmonella typhimurium LT2, section 26 of
220 of the complete genome.
Length = 20938

Score = 406 bits (1043), Expect = e-114
Identities = 206/214 (96%), Positives = 209/214 (97%)
Frame = +1

Query: 1 MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAKDIMDAGKLVT 60
MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAKDIMDAGKLVT
Sbjct: 11605 MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAKDIMDAGKLVT 11784

Query: 61 DELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGINVDYVLEFDVPDELIVDRI 120
DELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGI VDYVLEFDVPDELIVDRI
Sbjct: 11785 DELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGIVVDYVLEFDVPDELIVDRI 11964

Query: 121 VGRRVHAPSGRVYHVKFNPPKVEGKDDVTGEELTTRKDDQEETVRKRLVEYHQMTAPLIG 180
VGRRVHA SGRVYHVKFNPPKVEGKDDVTGE+LTTRKDDQEETVRKRLVEYHQMTAPLIG
Sbjct: 11965 VGRRVHAASGRVYHVKFNPPKVEGKDDVTGEDLTTRKDDQEETVRKRLVEYHQMTAPLIG 12144

Query: 181 YYSKEAEAGNTKYAKVDGTKPVAEVRADLEKILG 214
YY KEAEAGNTKYAKVDGT+ VA+VRA LEKILG
Sbjct: 12145 YYQKEAEAGNTKYAKVDGTQAVADVRAALEKILG 12246
Координаты выравнивания: с 11605 по 12246 а.о.
Поскольку процент идентичности близок к ста процентам (97%), значит, данный белок похож на заданный больше всех. Таким образом, два независимых метода исследования привели к одному результату.

Вывод:

Мы нашли один и тот же гомолог белка KAD_ECOLI  - белок KAD_SALTY двумя разными способами. Значит, это и есть ближайший гомолог изучаемого белка.

Протокол к занятию.




Главная  Первый семестр  Второй семестр  Третий семестр