В файлах pm_genome.fasta — полный геном бактерии Pasteurella multocida; vc_genome.fasta включает последовательности из EMBL, составляющие полный геном холерного вибриона (Vibrio cholerae); pa_genome.fasta — полный геном синегнойной палочки (Pseudomonas aeruginosa). На их основе созданы индексные файлы к каждому из геномов поотдельности (так выглядят команды, выполняемые на kodomo-count):
formatdb -i vc_genome.fasta -p F -n vc
formatdb -i pa_genome.fasta -p F -n pa
formatdb -i pm_genome.fasta -p F -n pmи индексный файл для поиска по всем трем геномам сразу: для удобства сначала создаются текстовые переменные, а затем уже запускается formatdb:
genpath=/home/export/samba/public/tmp
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
formatdb -i "$genomes" -n 3g -p FПрограмма formatdb создает в текущей директории три файла с расширениями nhr, nin и nsq (т.е. на данный момент получено 12 файлов).
blastall -p tblastn -d ** -i aspg2_ecoli.fasta -o **_asp_t.txtРезультаты заношу в таблицу:
Поиск по трем геномам отдельно | ||||
Поиск гомологов ASPG2_ECOLI | Геном Vibrio cholerae | Геном Pseudomonas aeruginosa | Геном Pasteurella multocida | |
Характеристика лучшей находки: | ||||
E-value находки | 3*10-16 | 6*10-74 | 4.9 | |
координаты выравнивания(-ий) в записи генома |
5399 - 6208 | 4436 - 3507 | 4475 - 4392 | |
AC соответствующей записи EMBL | AE004274; AE003852 | AE004563 (был заменен 12 июля на AE004091) | AE006188; AE004439 | |
Координаты CDS в записи EMBL (если они есть) | 5222 - 6235 | 3169 - 4278; 4275 - 6695 | 3399 - 4928 (комплемент.) | |
AC UniProt в записи EMBL (если есть) | Q9KQK3 | - | Q9CKU1 | |
Число находок с Е-value<0,01 |
1 | 2 | 0 | |
Поиск по всем трем геномам одновременно | ||||
Е-value лучшей находки | 9*10-16 | 1*10-73 | - | |
Число находок с Е-value<0,01 | 3 |
Результаты поиска TBLASTN:
entret embl:AE004274 -auto]. Получить запись EMBL через командную строку мне не удалось, поэтому я прибегла к системе поиска SRS (http://srs.ebi.ac.uk/). Итак, в случае поиска по отдельным индексным файлам, получены следующие результаты: по малому значению E-value локальных выравниваний и фактическому совпадению координат выравнивания/координат CDS в геноме логично предположить, что похожий на исследуемый Белок (ASPG2_ECOLI) закодирован в геноме другого организма (например, Vibrio cholerae: запись
product L-asparaginase Iфайла подтверждает мое предположение; в случае с Pseudomonas aeruginosa меня сразу смущает "расхождение направлений" координат выравнивания/координат CDS); в геноме Pasteurella multocida белок, похожий на ASPG2_ECOLI, очевидно, не закодирован.
В случае поиска по трем геномам одновременно, не изменилось число находок с Е-value<0,01; незначительно изменились и сами значения Е-value лучших находок. Это согласуется с тем, что при уменьшении объема выборки происходит уменьшение E-value, следовательно, достоверность находки увеличивается (подтверждение вышесказанного).
blastall -p blastn -d 3g -i m34234.fasta -o 3g_m34234_bln.txtВыбрано по 1 лучшей находке для каждого из геномов (значения E-value выделены жирным шрифтом/подчеркиванием в правом столбце):
Vibrio cholerae | >embl|AE004286|AE004286 Vibrio cholerae O1 biovar eltor str. N16961 chromosome I, section 194 of 251 of the complete chromosome. Length = 10185 Score = 34.2 bits (17), Expect = 0.66 Identities = 17/17 (100%) Strand = Plus / Plus Query: 57 agcattggcattaccca 73 ||||||||||||||||| Sbjct: 7749 agcattggcattaccca 7765 |
Аннотация соответствующего фрагмента генома:
|
Pseudomonas aeruginosa | >embl|AE004563|AE004563 Pseudomonas aeruginosa PAO1, section 124 of 529 of the complete genome. Length = 9937 Score = 50.1 bits (25), Expect = 1e-05 Identities = 49/57 (85%) Strand = Plus / Minus Query: 306 cgacggcttcgtcattacccacggtaccgacacgatggaagaaactgcttacttcct 362 ||||||| |||| || ||||||||||||||||| ||||||| || || |||||||| Sbjct: 4245 cgacggcatcgtgatcacccacggtaccgacaccctggaagagaccgcctacttcct 4189 |
Аннотация соответствующего фрагмента генома:
|
Pasteurella multocida | - | Аннотация соответствующего фрагмента генома: - |
Только в случае генома Pseudomonas aeruginosa вообще можно было бы предположить, что программа BLASTN нашла гомолог (о чем свидетельствуют характеристики выравнивания - в частности, Е-value<0,01; длина). Таким образом, программа BLASTN оказывается неэффективной для поиска гомологов кодирующих последовательностей. Это неудивительно, учитывая особенности алгоритма (так использование достаточно большого якоря в 11 пар нуклеотидов приводит к поиску строго идентичных, протяженных участков последовательности; чем якорь длиннее, тем больше вероятность "нахватать лишнего"). Вырожденность генетического кода так же снижает чувствительность программы.