-
Создание индексных файлов для программ пакета BLAST
Заданный мне геном -
X. campestris (возбудитель чёрной гнили капусты).




Создание индексных файлов пакета BLAST для поиска
по заданному геному:
formatdb -i xc_genome.fasta -p F -n xc |
В результате получилось 3 индексных файла:
xc.nsq,
xc.nhr,
xc.nin.
-
Поиск в геноме участков, кодирующих белки, похожие на заданный
Известна аминокислотная последовательность заданного мне белка KAD_ECOLI из
Escherichia coli K-12 -
KAD_ECOLI.fasta. Поставлена задача определить, не закодированы ли похожие белки в неаннотированном
геноме другого организма. Для этого при помощи команды на kodomo-count:
blastall -p blastn -d xc -i KAD_ECOLI.fasta -o kad_xc.blast -e 0.001 |
Был получен файл
kad_xc.blast. Был задан порог E-value 0,001. По данным из полученного файла была заполнена таблица:
Поиск гомологов KAD_ECOLI |
Геном Xanthomonas campestris |
Число находок с Е-value<0,001 |
1 |
Характеристика лучшей находки: |
|
|
E-value находки |
5e-39 |
|
AC соответствующей записи EMBL |
AE012446 |
|
координаты выравнивания(-ий) в записи EMBL |
4122.. 3565 |
|
координаты CDS в записи EMBL (если они есть) |
3559..4122 |
|
AC UniProt в записи EMBL |
Q8P5P5 |
Поиск по 3
геномам: Xanthomonas campestris,
Salmonella typhimurium, Pasteurella multocida |
|
E-value находки из предыдущего упражнения |
1e-38 |
|
Число находок с Е-value<0,001 |
3 |
Кроме того, на сайте
SRS по запросу в банке EMBL AE012446 в графе AC с параметром "Complete
entries" была получена соответствующая запись EMBL:
FT CDS complement(3559..4122) FT /codon_start=1 FT /transl_table=11 FT /gene="adk" FT /product="adenylate kinase" FT /note="identified by sequence similarity; putative; ORF FT located using Blastx/Glimmer/Genemark" FT /db_xref="GOA:Q8P5P5" FT /db_xref="InterPro:IPR000850" FT /db_xref="InterPro:IPR006259" FT /db_xref="InterPro:IPR011769" FT /db_xref="UniProtKB/Swiss-Prot:Q8P5P5" FT /protein_id="AAM42561.1" FT /translation="MRLVLLGPPGSGKGTQAARLKDTFQIPHISTGDLLRAEVAAGSPL FT GLKAKEVMARGDLVSDEILLGMLEARLGQADVANGFILDGYPRNVAQANALDSLLSKIG FT QPLDAVVQLDVASELLVERIAGRAKAEGREDDNPESVRKRLQVYTDSTAPVIGFYEQRG FT KLARVDGVGSLDEVLERIGQALGR"
|
По этим данным заполнены ещё две строчки из таблицы. Проанализировав полученную информацию, делаем вывод, что был найден действительно искомый белок.
-
Аналогичный поиск сразу в нескольких геномах
Для выполнения этого задания необходимо с помощью выбранной ранее программы провести поиск
по трем геномам: геному сальмонеллы
Salmonella typhimurium
(возбудителя сальмонеллёза человека и мышиного тифа), геному возбудителя чёрной гнили капусты
Xanthomonas campestris и геному бактерии
Pasteurella multocida. Для начала создадим в своей директории индексные файлы BLAST при помощи команды:
formatdb -i 'xc_genome.fasta st_genome.fasta pm_genome.fasta' -p F -n 3gen |
Теперь проводим поиск в геноме участков, кодирующих белок KAD_ECOLI для
Xanthomonas campestris, Salmonella typhimurium и
Pasteurella multocida при помощи команды:
blastall -p tblastn -d 3gen -i KAD_ECOLI.fasta -o kad_3gen.blast -e 0.001 |
В качестве результата получаем файл
kad_3gen.blast.
Лучшая находка из предыдущего задания здесь третья:
>AE012446 AE008922 |AE012446| Xanthomonas campestris pv. campestris str. ATCC 33913, section 354 of 460 of the complete genome. Length = 11287
Score = 155 bits (391), Expect = 1e-38 Identities = 90/218 (41%), Positives = 129/218 (59%), Gaps = 4/218 (1%) Frame = -2
|
Мы видим, что e-value лучшей находки из предыдущего упражнения изменилось. Выясним, с чем это может быть связано.
Известно, что e-value считается по формуле:
E=k*m*n*exp(-λ*S),
где m - длина банка, n - длина query, S - вес, k,λ - параметры.
Таким образом, E ~ m,n. В данном случае n - постоянная, а значение
m увеличилось при поиске сразу в нескольких геномах, соответственно, и
значение e-value тоже увеличилось: 5e-39 -> 1e-38.
-
Поиск гомологов с помощью программы BLASTN
Из второго занятия "Банк EMBL" был взят fasta-файл с геном , кодирующим заданный мне белок KAD_ECOLI -
X03038.fasta.Найдем гомологов этого гена в трёх геномах программой
BLASTN. Для этого зададим команду на kodomo-count:
blastall -p blastn -d 3gen -i X03038_gene1.fasta -o result3.txt |
Результатом работы данной команды стал файл
result3.txt. Лучшая находка:
Лучшая находка |
AE008718 AE006468 |AE008718| |
Организм |
Salmonella typhimurium LT2 |
E-value |
e-175 |
|
Score |
613 bits (309) |
|
Длина секции генома |
20938 |
|
Процент идентичности |
87% (558/641) |
|
Кодируемый белок |
KAD_SALTY |
Соответствующее выравнивание:
Query: 1 atgcgtatcattctgcttggcgctccgggcgcggggaaagggactcaggctcagttcatc 60 |||||||| |||||||||||||||||||||||||| ||||| |||||||||||||||||| Sbjct: 11605 atgcgtattattctgcttggcgctccgggcgcgggtaaaggaactcaggctcagttcatc 11664
Query: 61 atggagaaatatggtattccgcaaatctccactggcgatatgctgcgtgctgcggtcaaa 120 ||||||||||||||||||||||||||||||||||||||||||||||| || || || ||| Sbjct: 11665 atggagaaatatggtattccgcaaatctccactggcgatatgctgcgcgccgcagtgaaa 11724
Query: 121 tctggctccgagctgggtaaacaagcaaaagacattatggatgctggcaaactggtcacc 180 || ||||||||| |||| ||||| || ||||| || ||||| || || |||||||| ||| Sbjct: 11725 tcaggctccgagttgggcaaacaggcgaaagatatcatggacgccggtaaactggtgacc 11784
Query: 181 gacgaactggtgatcgcgctggttaaagagcgcattgctcaggaagactgccgtaatggt 240 || ||||||||||| ||||||||||||||||| || || ||||||||||||||||| ||| Sbjct: 11785 gatgaactggtgattgcgctggttaaagagcgtatcgcccaggaagactgccgtaacggt 11844
Query: 241 ttcctgttggacggcttcccgcgtaccattccgcaggcagacgcgatgaaagaagcgggc 300 || ||| ||||||| |||||||| || || |||||||| |||||||||||||||||||| Sbjct: 11845 tttctgctggacggtttcccgcgcacgatcccgcaggctgacgcgatgaaagaagcgggt 11904
Query: 301 atcaatgttgattacgttctggaattcgacgtaccggacgaactgatcgttgaccgtatc 360 || || |||||||| ||||||||||||||||||||||||||||||||||||||||| Sbjct: 11905 attgtcgtggattacgtgctggaattcgacgtaccggacgaactgatcgttgaccgtatt 11964
Query: 361 gtcggtcgccgcgttcatgcgccgtctggtcgtgtttatcacgttaaattcaatccgccg 420 || ||||| ||||| || || | ||||| || ||||| |||||||| || ||||||||| Sbjct: 11965 gtgggtcgtcgcgtacacgccgcctctggccgcgtttaccacgttaagtttaatccgccg 12024
Query: 421 aaagtagaaggcaaagacgacgttaccggtgaagaactgactacccgtaaagatgatcag 480 ||||| ||||||||||| ||||| ||||| ||||| ||||| ||||||||||| |||||| Sbjct: 12025 aaagtggaaggcaaagatgacgtcaccggcgaagatctgaccacccgtaaagacgatcag 12084
Query: 481 gaagagaccgtacgtaaacgtctggttgaataccatcagatgacagcaccgctgatcggc 540 ||||||||||| || ||||||||||| ||||| ||||||||||| || |||||||| ||| Sbjct: 12085 gaagagaccgttcgcaaacgtctggtggaatatcatcagatgaccgcgccgctgattggc 12144
Query: 541 tactactccaaagaagcagaagcgggtaataccaaatacgcgaaagttgacggcaccaag 600 |||||| |||||||| |||||||| || ||||||||||| ||||||||||| || || Sbjct: 12145 tactaccagaaagaagcggaagcgggcaacaccaaatacgctaaagttgacggtacgcag 12204
Query: 601 ccggttgctgaagttcgcgctgatctggaaaaaatcctcgg 641 | ||||| || || ||||| | ||||||||||||||||| Sbjct: 12205 gccgttgccgacgtgcgcgcagcgctggaaaaaatcctcgg 12245
|
При помощи команды entret embl:AE008718 -auto получаем файл с записью EMBL:
ae008718.entret.Находим в нём информацию о соответствующем гене:
FT CDS 11605..12249 FT /codon_start=1 FT /transl_table=11 FT /gene="adk" FT /product="adenylate kinase" FT /EC_number="2.7.4.3" FT /note="adenylate kinase. (SW:KAD_SALTY)" FT /db_xref="GOA:P0A1V4" FT /db_xref="InterPro:IPR000850" FT /db_xref="InterPro:IPR006259" FT /db_xref="InterPro:IPR007862" FT /db_xref="InterPro:IPR011769" FT /db_xref="UniProtKB/Swiss-Prot:P0A1V4" FT /protein_id="AAL19442.1" FT /translation="MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSEL FT GKQAKDIMDAGKLVTDELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGIVVD FT YVLEFDVPDELIVDRIVGRRVHAASGRVYHVKFNPPKVEGKDDVTGEDLTTRKDDQEET FT VRKRLVEYHQMTAPLIGYYQKEAEAGNTKYAKVDGTQAVADVRAALEKILG"
|
Изучаемый ген расположен на прямой цепи, старт-кодон - 1 M(atg),
таблица генетического кода - 11, название гена - adk, название
соответствующего продукта - adenylate kinase, информация о белке в
записях в базах данных: GOA:P0A1V4, IPR000850, IPR006259,
IPR007862, IPR011769, UniProtKB/Swiss-Prot:P0A1V4, ID белка -
AAL19442.1. Делаем вывод о гомологичности кодируемого данным геном
белка KAD_SALTY заданному мне белку KAD_ECOLI.
! Находка из генома
Xanthomonas campestris, полученная в первом задании находится в выдаче программы BLASTN на десятом месте с плохим e-value 1.5. Такой результат наводит на мысль о плохой достоверности поиска с помощью программы BLASTN.
Теперь заметим, что , когда мы искали сразу по трём геномам
участки, кодирующие белки, похожие на заданный, результатом
поиска стали три последовательности (см. таблицу). Среди этих
последовательностей мы рассматривали только одну - найденную при
аналогичном поиске по одному геному. Однако, стоит отметить, что первая
в списке находок была та же последовательность, что и являющаяся лучшей
для поиска гомологов с помощью программы BLASTN:
AE008718 AE006468 |AE008718| Salmonella typhimurium LT2, section... 406 e-114
|
Приведём здесь аннотацию и соответствующее выравнивание:
>AE008718 AE006468 |AE008718| Salmonella typhimurium LT2, section 26 of 220 of the complete genome. Length = 20938
Score = 406 bits (1043), Expect = e-114 Identities = 206/214 (96%), Positives = 209/214 (97%) Frame = +1
Query: 1 MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAKDIMDAGKLVT 60 MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAKDIMDAGKLVT Sbjct: 11605 MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAKDIMDAGKLVT 11784
Query: 61 DELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGINVDYVLEFDVPDELIVDRI 120 DELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGI VDYVLEFDVPDELIVDRI Sbjct: 11785 DELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGIVVDYVLEFDVPDELIVDRI 11964
Query: 121 VGRRVHAPSGRVYHVKFNPPKVEGKDDVTGEELTTRKDDQEETVRKRLVEYHQMTAPLIG 180 VGRRVHA SGRVYHVKFNPPKVEGKDDVTGE+LTTRKDDQEETVRKRLVEYHQMTAPLIG Sbjct: 11965 VGRRVHAASGRVYHVKFNPPKVEGKDDVTGEDLTTRKDDQEETVRKRLVEYHQMTAPLIG 12144
Query: 181 YYSKEAEAGNTKYAKVDGTKPVAEVRADLEKILG 214 YY KEAEAGNTKYAKVDGT+ VA+VRA LEKILG Sbjct: 12145 YYQKEAEAGNTKYAKVDGTQAVADVRAALEKILG 12246
|
Координаты выравнивания: с 11605 по 12246 а.о.
Поскольку процент идентичности близок к ста процентам (97%), значит,
данный белок похож на заданный больше всех. Таким образом, два
независимых метода исследования привели к одному результату.
Вывод:
Мы нашли один и тот же гомолог белка KAD_ECOLI - белок KAD_SALTY
двумя разными способами. Значит, это и есть ближайший гомолог
изучаемого белка.
Протокол к занятию.
Главная Первый семестр Второй семестр Третий семестр