Программы пакета BLAST для работы с нуклеотидными последовательностями
1. Поиск в геноме участков, кодирующих белки, похожие на заданный
Даны аминокислотная последовательность белка RSUA_ECOLI из Escherichia coli K-12 и геном бактерии Pasteurella multocida.
Для поиска по заданному геному с помощью программы formatdb созданы индексные файлы пакета BLAST.
formatdb -i pm_genome.fasta -n index -p F где параметр: -i = файл для которого создаются индексные файлы; -p = тип файла (T- белковый, F-нуклеодитный);
-n = базовое имя.
Для определения, закодированы ли похожие белки в геноме другого организма, следует воспользоваться программой TBLASTN, которая
производит поиск по полученной нуклеотидной базе, используя на вход последовательность белка. Поиск производился с порогом на
E-value=0,001.
blastall -p tblastn -d index -i rsua_ecoli.fasta -e 0.001 -o rsua.out где параметр: -p = имя программы из пакета BLAST; -d = базовое имя индексных файлов; -i = Query Sequence, то что будем искать в fasta-формате;
-e = порог E-value; -o = имя выходного файла.
Полученный результат поиска приведен в таблице ниже.
Поиск гомологов белка RSUA_ECOLI в геноме Pasteurella multocida
Число находок с Е-value < 0,001
3
Характеристика лучшей находки:
E-value находки
1e-72
Название геномной последовательности
Pasteurella multocida subsp. multocida str. Pm70 section 1
of 204 of the complete genome.
Координаты выравнивания(-ий) в найденной последовательности
3461-4147
2. Нахождение записи EMBL по последовательности с помощью программы BLASTN
AC записи нынешнего релиза EMBL, в которую попадает найденная последовательность гена гомолога вашего белка: AE004439.
Программе Blastn была подана последовательностью того участка генома, который был найден в предыдущем упражнении как
лучший. В результате чего получил следующий
результат. Были также определены координаты этого гена согласно
аннотации EMBL (3401-4087). Имеющаяся нформация о соответствующем участке в поле FT:
FT CDS 3461..4159
FT /codon_start=1
FT /transl_table=11
FT /gene="rsuA_1"
FT /locus_tag="PM0003"
FT /product="RsuA"
FT /db_xref="GOA:Q9CPN4"
FT /db_xref="HSSP:1KSK"
FT /db_xref="InterPro:IPR002942"
FT /db_xref="UniProtKB/Swiss-Prot:Q9CPN4"
FT /protein_id="AAK02087.1"
FT /translation="MRLDKFLAENTGLTRSQANKVLKQSAVTVNGHVEKNGAQKVSQTD
FT EICLEGEHLPWVSAGQYLMLYKPQGYVCSHEDGDYPTIYQFFDYPLAGKLHSAGRLDVD
FT TTGLVLLTDDGKWSHRITSPKHHCEKTYLVTLADPVESHYQQACAEGMLLRGEKTPTKP
FT ATLEILDDYNVNLTISEGRYHQVKRMFAALGNKVVGLHRWKIGQIELDDRLAEGEYRSL
FT SAEEIATFNK"
Координаты CDS: 3461-4159
Запись банка Uniprot, которой она соответствует: Q9CPN4
3. Поиск гомологов с помощью программы BLASTN
Создаeм fasta-файл с последовательностью из генома E.coli, кодирующей белок rsua.
Для этого надо взять одну из записей EMBL, на которую ссылается ваша запись Swiss-Prot, в моем случае это была
U00096, найти в ней координаты
соответствующей CDS и вырезать последнюю программой seqret в отдельный файл. Далее производим поиск гомологов этого гена в геноме
Pasteurella multocida с помощью программы BLASTN.
При ограничении на E-value 0,001 была найдена одна последовательность из Pasteurella multocida (AE006034).
Эта же находка являлась лучшей и в поске по белковой последовательности. Последующие находки имееют очень большое E-value, поэтому делать
вывод о том, кодируют ли эти участи схожие белки нельзя.
Сравнение результатов полученных с помощью програм Tblastn и Blastn
Характеристики
Tblastn
Blastn
Количество находок с Е-value < 0,001
3
1
Количество находок с Е-value < 10.0
7
19
E-value лучшей находки
1e-72
3e-04
Координаты выравнивания в записи EMBL для лучшей находки
3461-4147
3839-3867
Длина выравнивания
687
29
Вес (Score) лучшей находки
265
42.1
Можно сделать вывод о том, что аминокислотная последовательность более консервативна, в отличии от генетического кода. Возможно это
связано с тем, что одна и та же аминокислота может кодироваться несколькими треплетами.
Таким образом, программы Tblastn и Blastn могут использоваться в аннотировании геномов, в частности Tblastn в поиске гомологов
данной последовательности, а Blastn помогает в поиске конкретной последовательности.