В рабочей директории были созданы индексные файлы пакета BLAST для поиска по геному Xanthomonas campestris
formatdb -i xc_genome.fasta -p F -n xc (/home/export/samba/public/tmp/xc_genome.fasta)
.Для решения данной задачи наиболее подходящая программа из пакета BLAST - это tblastn.
blastall -p tblastn -d xc -i PHR_ECOLI.fasta -o xcvsphr -e 0.001
По результатам поиска была заполнена таблица:
Поиск гомологов PHR_ECOLI | Геном Xanthomonas campestris | |
Число находок с Е-value<0,001 | 1 | |
Характеристика лучшей находки: | ||
E-value находки | 2e-72 | |
AC соответствующей записи EMBL | AE012243 | |
координаты выравнивания(-ий) в записи EMBL | 5274...6686 | |
Координаты CDS в записи EMBL (если они есть) | 5238...6692 | |
AC UniProt в записи EMBL (если есть) | Q8PAP4 | |
Геномы Salmonella typhimurium, Pasteurella multocida, Xanthomonas campestris | ||
Число находок с Е-value<0,001 | 2 | |
E-value находки AE012243 | 6е-72 |
На первом месте в списке находок стоял белок, E-value которого на десятки порядков отличался от остальных(2e-72, а следующий уже 2.4). Это дает основания назвать данный белок гомологом phr_ecoli c большой долей вероятности. При поиске по всем геномам E-value гомолога повысился, что связано с увеличением базы данных поиска. Однако изменение E-value с 2e-72 на 6е-72 нельзя назвать кардинальным, т.е. программа находит гомологов с довольно высокой точностью даже при увеличении базы данных.
blastall -p tblastn -d xcstpm -i PHR_ECOLI.fasta -o allvsphr -e 0.001 (/home/export/samba/public/tmp/xc_genome.fasta) (/home/export/samba/public/tmp/st_genome.fasta) (/home/export/samba/public/tmp/pm_genome.fasta)
blastall -p blastn -d xcstpm -i phr_ecolik12.fasta -o blastnall >AE012505 AE008922 |AE012505| Xanthomonas campestris pv. campestris str. ATCC 33913, section 413 of 460 of the complete genome. Length = 10606 Score = 36.2 bits (18), Expect = 0.22 Identities = 18/18 (100%) Strand = Plus / Plus Query: 1077 ctggcgcgaaggcgagcg 1094 |||||||||||||||||| Sbjct: 4867 ctggcgcgaaggcgagcg 4884
AE008728 AE006468 |AE008728| Salmonella typhimurium LT2, section... 180 6e-45 ... AE012505 AE008922 |AE012505| Xanthomonas campestris pv. campestr... 36 0.22Не все лучшие находки поиска по всем геномам попали в список: AE008728 сталась на первом месте, а AE012243 исчезла из списка(участок xanthomonas). Из xanthomonas первым стоит AE012505, выравнивание которого приведено выше. E-value AE008728 резко ухудшилось, а тот AE012243 который при поиске с помощью blastn был лучшим вообще исчез. Вероятно, такой эффект вызван тем, что Blastn ищет НК в НК, а tblastn ищет белок в НК(т.е. потому что одна и та же аминокислота в белке может задаваться несколькими кодонами, что увеличивает количество вариантов в поиске) - это влияет на E-value. К тому же длина выравнивания резко уменьшилась.