Третий семестр
Работа проводилась со следующими файлами:
С помощью программы formatdb были созданы индексные файлы, при этом использовались следующие параметры:
-i файл, подаваемый на вход -p тип последовательности в файле (T - аминокислотная, F - нуклеотидная) -n первая часть файла с расширением (nhr, nin или nsq)Для генома синегнойной палочки (Pseudomonas aeruginosa) использовалась команда:
formatdb -i pa_genome.fasta -p F -n pa
(для других геномов были выполнены аналогичные команды). В результате было получено 9 индексных файлов для поиска, по 3 для каждого из геномов. В задании требуется определить, не закодированы ли в геномах организмов Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida
белки, похожие на мой белок - GLMU.ECOLI, аминокислотная последовательность которого известна.
Из предложенных программ для выполнения задания наиболее подходит программа TBLASTN.
С помощью команды:
blastall -p tblastn -d pa -i glmu.fasta -o resultpa.txt
(и аналогичных для двух других геномов) получены следующие файлы
для Pseudomonas aeruginosa
для Pasteurella multocida
для Vibrio cholerae
результаты представлены в таблице:
Поиск гомологов GLMU_Ecoli | Геном Pseudomonas aeruginos | Геном Vibrio cholerae | Геном Pasteurella multocida | |
Характеристика лучшей находки: | ||||
E-value находки | e-141 | 0.0 | 0.0 | |
координаты выравнивания(-ий) в записи генома |
9430..8075 (комп) | 7243..5894 (компл) | 5421..6785 | |
AC соответствующей записи EMBL | AE004967 | AE004342 | AE006217 | |
Координаты CDS в записи EMBL (если они есть) | 5891..7252 | 5421..6797 | ||
AC UniProt в записи EMBL (если есть) | Q9KNH7 | Q9CK29 | ||
Число находок с Е-value<0,01 |
2 | 4 | 5 | |
Поиск по трем геномам сразу |
||||
Число находок с Е-value<0,01 | 2 | 4 | 3 | |
E-value лучшей находки | e-140 | 0.0 | 0.0 | |
АС лучшей находки | AE004967 | AE004342 | AE006217 |
Поиск похожих белков проводился по всем трем геномам.
Были созданы индексные файлы сразу для 3-х геномов.
Выпонены следующие команды:
genpath=/home/export/samba/public/tmp -ввод переменнной,
для того, чтобы не набирать несколько раз один и тот же путь к файлам;
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta" -ввод переменной, обозначающей все три файла с геномами;
formatdb -i "$genomes" -n 3g -p F - получены индексные файлы;
blastall -p tblastn -d 3g -i glmu_ecoli.fasta -o result-3g.txt -получен файл с выравниваниями.
Результаты отображены в таблице.
Были найдены те же находки, что и при поиске по каждому из геномов, только с большим E-value.
Увеличение вероятности нахождение данной последовательности вызвано увеличением банка поиска
при поиске по 3 геномам.
Количество находок с Е-value<0,01 для Pseudomonas aeruginosa и Vibrio cholerae не изменилось, а для Pasteurella multocida - уменьшилось на две.
С комощью программы BLASTN был произведен поиск гомологов белка GLMU_ECOLI по гену, кодирующемуего. в 3 геномах из предыдущего задания.
Выполнена команда blastall -p blastn -d 3g -i glmu_gene2.fasta -o result-3g-b.txt
E-value лучшей находки = 2e-07. Выравнивание, соответствующее лучшей находке:
>embl|AE004967|AE004967 Pseudomonas aeruginosa PAO1, section 528 of 529 of the complete genome. Length = 16662 Score = 56.0 bits (28), Expect = 2e-07 Identities = 40/44 (90%) Strand = Plus / Minus Query: 1129 aacatcggcgcgggaaccattacctgcaactacgatggtgcgaa 1172 ||||||||||| || ||||| ||||||||||||||||| ||||| Sbjct: 8314 aacatcggcgccggcaccatcacctgcaactacgatggcgcgaa 8271
Лучшая находка AE004967. Эту же запись нам выдана программой TBLASTN при поиске гомологов по трем геномам сразу. E-value больше, чем при поиске в TBLASTN. Увеличение банка данных происходит из-за того, что нуклеотидные последовательности длиннее белковых. Также нуклеодтидов всего 4, а аминокислот 20, следовательно, вероятность совпадения с нуклеотидом намного выше. Этим можно объяснить возрастание E-value.