BLAST programs for nucleic sequences |
|||||||||||||||
Задание 1.Поиск в геноме участков, кодирующих белки, похожие на GUAD_BACSUСкопируем из с kodomo из директории /P/y11/Term_3/Block_2 файл заданного генома (Listeria monocytogenes) в свою рабочую директорию ~/Term3/Practice6/:cp /P/y11/Term_3/Block_2/lm_genome.fasta ~/Term3/Practice6/lm_genome.fastaСкачаем с PDB аминокислотную последовательность белка из Bacillus subtilis - GUAD_BACSU. Задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома. Создадим в рабочей директории индексные файлы пакета BLAST+ для поиска по заданному геному. Для этого воспользуемся программой makeblastdb. Сперва, набрав в командной строке makeblastdb -help > makeblastdb.txtузнаем о ее параметрах -in, -out и -dbtype.
makeblastdb -in lm_genome.fasta -dbtype nucl -out lmДля решения данной задачи выбираем программу TBLASTN из пакета BLAST+ и проведем с ее помощью поиск с порогом на E-value 0,001. Чтобы запустить программу поиска пакета BLAST, нужно иметь в своей директории файл с пробной последовательностью в fasta-формате и индексные файлы "банка последовательностей". Названия программ набираются строчными буквами. Чтобы получить подсказку, запустим выбранную программу с опцией -help:
tblastn -query 1WKQ.fasta -db lm -out lmal.txt -evalue 0.001выполняем поиск гомологов в геноме. Выходной файл lmal.txt Поиск гомологов белка GUAD_BACSU в геноме Listeria monocytogenesс помощью TBLASTN
Задание 2.Нахождение записи EMBL по последовательности программой BLASTNВ директории /P/y11/Term_3/Block_2/Sequences находятся файлы с нуклеотидными последовательностями различных бактерий. Для последовательности moiseeva.fasta найдем данные, пользуясь интерфейсом к программе BLASTN на сайте EBI.
Задание 3.Поиск гомологов гена программой BLASTNСоздадим в своей рабочей директории fasta-файл с нуклеотидной последовательностью, кодирующей белок GUAD_BACSU. Для этого на сайте UniProt найдем запись о белке GUAD_BACSU и возьмем одну из записей EMBL, на которую ссылается эта запись Swiss-Prot. Выберем, например, EMBL-Bank: AJ002571.1 : Bacillus subtilis 168 56 kb DNA fragment between xlyA and ykoR. Здесь найдем соответствующий белку CDS:FT CDS complement(34802..35272) FT /transl_table=11 FT /gene="ykoA" FT /product="YkoA" FT /function="unknown" FT /db_xref="GOA:O34598" FT /db_xref="InterPro:IPR002125" FT /db_xref="InterPro:IPR016192" FT /db_xref="InterPro:IPR016193" FT /db_xref="PDB:1TIY" FT /db_xref="PDB:1WKQ" FT /db_xref="UniProtKB/Swiss-Prot:O34598" FT /protein_id="CAA05596.1" FT /translation="MNHETFLKRAVTLACEGVNAGIGGPFGAVIVKDGAIIAEGQNNVT FT TSNDPTAHAEVTAIRKACKVLGAYQLDDCILYTSCEPCPMCLGAIYWARPKAVFYAAEH FT TDAAEAGFDDSFIYKEIDKPAEERTIPFYQVTLTEHLSPFQAWRNFANKKEY"Видим координаты 34802-35272 в комплементарной цепи, вырежем этот участок программой seqret:
Теперь поищем гомологи этого гена в том же геноме, что в задании 1, но программой BLASTN. blastn -query guad1.fasta -db lm -out lmal1.txt -evalue 0.001 -task blastnblastn -query AJ002571.txt -db lm -out lmal333.txt -evalue 0.001 -task blastn Находок гомологов моего белка при поиске BLASTN не оказалось. Поиск гомологов TBLASTN лучше, чем с помощью BLASTN. Нашедшееся выравнивание в первой случае мало отличается от случайного для BLASTN, т.к. вероятность совпадения у него меньше из-за возможности кодирования одной аминокислоты разными триплетами. | |||||||||||||||
Наверх |