Пакет BLAST(работа из командной строки)

Задание 1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST
С помощью программы formatdb были созданы индексные файлы для поиска последовательностей в геномах Vibrio cholerae, Pseudomonas aeruginosa и Pasteurella multocida.
Задание 2. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на DKGA_ECOLI
Выбранная программа TBLASTN (т.к. на входе белковая последовательность, а искать надо среди НК (их можно транслировать)).
Результаты поиска
Поиск гомологов dkga_Ecoli Геном Vibrio cholerae Геном Pseudomonas aeruginosa Геном Pasteurella multocida
Характеристика лучшей находки:      
     E-value находки 5e-10 2e-40 0.95
  координаты выравнивания(-ий)
в записи генома
670 - 1599 комплементарная цепь 4453 - 5223 комплементарная цепь 8959-9072
AC соответствующей записи EMBL AE004153 AE004833 AE006227
  Координаты CDS в записи EMBL (если они есть) 640 - 1698 комплементарная цепь 4426 - 5244 комплементарная цепь 8359 - 9114
  AC UniProt в записи EMBL (если есть) Q9KU57 Q9HWL4 Q9CJT8
Число находок с Е-value<0,01
1(лучшая) 7 0
E-value лучшей находки
для всех геномов сразу
4e-40
Число находок с Е-value<0,01
для всех геномов сразу
8
Задание 3. Аналогичный поиск сразу в нескольких геномах
Для этого были созданы индексные файлы сразу для 3-х геномов. Результаты этого поиска представлены в таблице выше. E-value лучшей находки увеличился в 2 раза, но при степени -40 это абсолютно не существенно.
Задание 4. Поиск гомологов с помощью программы BLASTN
Эта программа искала нуклеотидную последовательность гена моего белка среди нуклеиновых кислот (с помощью индексных файлов для 3-х геномов). Результаты получились не очень хорошие, т.к. поиск белков среди транслятов чувствительнее, чем поиск нуклеиновых кислот ( из-за большей длины якоря и вырожденности генетического кода). Полученное выравнивание не несет особого смысла ( и участок маленький, и E-value большое).

E-value лучшей находки = 0.11. Соответствующее выравнивание:
>embl|AE004691|AE004691 Pseudomonas aeruginosa PAO1, section 252 of
            529 of the complete genome.
          Length = 12497

 Score = 36.2 bits (18), Expect = 0.11
 Identities = 18/18 (100%)
 Strand = Plus / Plus
                               
Query: 145  gccctgctcgacagcctg 162
            ||||||||||||||||||
Sbjct: 7900 gccctgctcgacagcctg 7917

На страницу 3-го семестра

© Моросанова Мария