Я создала в своей рабочей директории(BLAST) индексные файлы пакета BLAST
для поиска по заданному геному.
Для этого я зашла на kodomo-count, перешла
в свою рабочую директорию(BLAST) и использовала программу
formatdb -i pm_genome.fasta -p F -n pm.
Где параметр -i означает имя входящего файла, -p тип последовательности (белок/нуклеотиды), -n первую часть имен трех выходящих файлов(в моем случае pm от Pasteurella multocida).
Я выбрала для решения данной задачи программу TBLASTN из пакета BLAST
и провела с ее помощью поиск с порогом на E-value 0,001, используя команду
blastall -p tblastn -d pm -i sequences.fasta -o out.txt -e 0.001
По результатам поиска получен файл out.txt и заполнена таблица.
Число находок с Е-value<0,001 | 2 | |
Характеристика лучшей находки: | ||
E-value находки | e-114 | |
AC соответствующей записи EMBL | AE006126 | |
Координаты выравнивания(-ий) в записи EMBL | 3829-3032 | |
Координаты CDS в записи EMBL (если есть) | (complement)3829-3026 | |
AC UniProt для этого CDS (если есть) | Q9CMF4 |
Я поискала гомологов этого гена в трёх геномах программой
BLASTN. Первый раз без указания E-value, результат в файле
af052007.txt. Всего получилось 40 находок, у лучшей
(AE008727 AE006468 |AE008727| Salmonella typhimurium LT2)
E-value=0.0, Score=658, Identities = 85%. Выравнивание находится в
файле.
Второй раз я искала с указанием
E-value=0.001. Результат в файле eaf052007.txt.
Я получила 2 находки. По-прежнему лучшая - AE008727 AE006468 |AE008727| Salmonella typhimurium LT2
с E-value=0.0, Score=658, Identities = 85%. Эти две находки были первыми в поиске без
указания E-value.Значения Score последующих находок
значительно меньше - у следующей 68, так что по-настоящему гомологичен только
первый найденный ген, ну и может второй, так как он в обоих случаях появился и
его E-value=3e-11, тоже немного.
Выравнивание находится в файле, оно полностью
совпадает с предыдущим.
Исследуемый ген - nagB, чьим продуктом является N-acetylglucosamine-6-phosphate
isomerase (Н-ацетилглюкосамин-6-фосфат изомераза).
В предыдущих упражнениях на вход программы подавалась аминокислотная последовательность.
В упражнении 3 - нуклеотидная. Во всех случаях было найдено примерно одинаковое
количество находок (2-3), причем во всех трех упражнениях фигурирует последовательность
AE006126 Pasteurella multocida, а во 2 и 3 упражнении еще AE008727| Salmonella typhimurium LT2,
которая и является наиболее возможным гомологом. Различаются в упражнениях только
значения E-value и Score.