Создим в своей рабочей директории индексные файлы пакета BLAST для поиска
по геному X.campestris с помошью команды
formatdb -i xc_genome.fasta -p F -n xc
-i входной файл -p формат последовательности: F - нуклеотидная -n базовое имя
Выберем подходящую для решения данной задачи программу из пакета BLAST - TBLASTN
Поиск гомологов белка в неаннотированных нуклеотидных последовательностях
и проведем с ее помощью поиск с порогом на E-value 0,001.
blastall -p tblastn -d xc -i ybey_ecoli.fasta -o xc_tblastn.txt -e 0.001
-p выбранная программа из пакета -d базовое имя -i входной файл - последовательность белка -o выходной файл -e E-ValueПолучим файл xc_tblastn.txt
По результатам поиска заполним таблицу.
Число находок с Е-value<0,001 | 1 | |
Характеристика лучшей находки: | ||
E-value находки | 9e-32 | |
AC соответствующей записи EMBL | AE012341 | |
Координаты выравнивания в записи EMBL | 1149-1577 | |
Координаты CDS в записи EMBL | 1095..1580 | |
AC UniProt для этого CDS (если есть) | Q8P8B2 |
Поищем гомологов этого гена в трёх геномах программой
BLASTN.
blastall -p blastn -d pm_st_xc -i ybey_embl.fasta -o blastn.txt -e 0.001
E-value лучшей находки - 2e-70, соответствующее выравнивание - в отдельном
файле,организм - Salmonella typhimurium,
аннотацию соответствующего фрагмента
генома ae008727.entret получили с помошью команды
seqtet embl:AE008727 -auto
В полученном файле нашли нужный фрагмент:
FT gene complement(101..591)
FT /gene="ybeY"
FT /note="synonym: STM0668"
FT CDS complement(101..574)
FT /codon_start=1
FT /transl_table=11
FT /gene="ybeY"
FT /product="putative metal-dependent hydrolase"
FT /note="hypothetical protein in cutE-corC intergenic region.
FT (SW:YBEY_SALTY)"
FT /db_xref="GOA:O87574"
FT /db_xref="InterPro:IPR002036"
FT /db_xref="UniProtKB/Swiss-Prot:O87574"
FT /protein_id="AAL19619.1"
FT /translation="MSQVILDLQLACENHAGLPDEAQFQRWLDGVIPQFQEEAEVTIRL
FT VDEAESHDLNLTYRGKDKPTNVLSFPFEAPAGIEMPLLGDLIICRQVVEQEAQEQSKPL
FT EAHWAHMVVHGSLHLLGYDHIDDDEAEEMESLETEIMLAMGYEDPYIAEKIAE"
Программа blastn нашла только одно приемлимое выравнивание (всего 2, но второе с относительно большим E-Value и всего 40 нп). Тем не менее, это наверняка гомолог, что видно по аннотации - по имени гена, по описанию продукта, по графе note. Таким образом, поиск с помошью BLASTN дает хорошие результаты с маленьким E-Value, в то время как TBLASTN может найти более дальних гомологов.