BLAST programs for nucleic sequences

Задание 1.

Поиск в геноме участков, кодирующих белки, похожие на GUAD_BACSU

Скопируем из с kodomo из директории /P/y11/Term_3/Block_2 файл заданного генома (Listeria monocytogenes) в свою рабочую директорию ~/Term3/Practice6/:
cp /P/y11/Term_3/Block_2/lm_genome.fasta ~/Term3/Practice6/lm_genome.fasta
Скачаем с PDB аминокислотную последовательность белка из Bacillus subtilis - GUAD_BACSU.

Задачаопределить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

Создадим в рабочей директории индексные файлы пакета BLAST+ для поиска по заданному геному. Для этого воспользуемся программой makeblastdb. Сперва, набрав в командной строке
makeblastdb -help  > makeblastdb.txt
узнаем о ее параметрах -in, -out и -dbtype.
  • -in - input file/database name;
  • -out - name of BLAST database to be created; default = input file name provided to -in argument;
  • -dbtype - molecule type of input; default = `prot'; ('nucl' or 'prot');
Программа makeblastdb создает в текущей директории три файла с расширениями (для нуклеотидной базы) nhr, nin и nsq:
makeblastdb -in lm_genome.fasta -dbtype nucl -out lm
Для решения данной задачи выбираем программу TBLASTN из пакета BLAST+ и проведем с ее помощью поиск с порогом на E-value 0,001.

Чтобы запустить программу поиска пакета BLAST, нужно иметь в своей директории файл с пробной последовательностью в fasta-формате и индексные файлы "банка последовательностей". Названия программ набираются строчными буквами. Чтобы получить подсказку, запустим выбранную программу с опцией -help:
  • -query - input file name;
  • -db - BLAST database name;
  • -out - output file name;
  • -evalue - expectation value (E) threshold for saving hits; default = `10'.
Командой
tblastn -query 1WKQ.fasta -db lm -out lmal.txt -evalue 0.001
выполняем поиск гомологов в геноме. Выходной файл lmal.txt

Поиск гомологов белка GUAD_BACSU в геноме Listeria monocytogenesс помощью TBLASTN

Число находок с E-value < 0,001 1
E-value лучшей находки 1e-16
Название последовательности с лучшей находкой Listeria monocytogenes strain EGD, complete genome, segment 12/12
Координаты лучшей находки (от-до) 76156 - 75863
Доля последовательности GUAD_BACSU, вошедшая в выравнивание с лучшей находкой (конец выравнивания - начало выравнивания + 1)/длина белка = (124-33+1)/164 = 0,56

Задание 2.

Нахождение записи EMBL по последовательности программой BLASTN

В директории /P/y11/Term_3/Block_2/Sequences находятся файлы с нуклеотидными последовательностями различных бактерий. Для последовательности moiseeva.fasta найдем данные, пользуясь интерфейсом к программе BLASTN на сайте EBI.
  • На главной странице EBI (http://www.ebi.ac.uk/) в меню Tools выбираем "Similarity&Homology""NCBI BLAST", затем по гиперссылке "Nucleotide Databases".
  • Поскольку известно, что последовательность – из бактерии и описана в одной из стандартных записей, снимем галочку против "EMBL Release"; после "развернем" "EMBL Release", затем "EMBL Prokaryote" и поставьте галочку против "EMBL Standard Prokaryote".
  • Получив результат, нажмем "Show alignments", чтобы увидеть не только ID записей, но и кооординаты находок в них.
  • Возьмем ту находку, в которой в выравнивание попала вся пробная последовательность, а совпадение – 100%. Если концу пробной последовательности соответствует большее число, чем началу, значит, направление последовательности совпадает с направлением записи; если наоборот – значит для записи выбрано противоположное направление (комплементарная последовательность).
  • Посмотрим саму запись. Найдем в поле FT, описан ли как-либо участок записи EMBL, с которой совпала заданная последовательность.
Полученные данные:
  • Данная последовательность присутствует в записи:
    	EMBL-Bank: AB001041.1 : Borrelia garinii DNA for outer surface protein A, complete cds.
    
    al
  • Координаты заданной последовательности в записи 575-754, она соответствует она направлению записи.
  • В поле FT записи описан участок, пересекающийся с данной последовательностью. Этот участок - ген ospA. Его направление также прямое и совпадает с направлением заданной последовательности.
    FT   source          1..1500
    FT                   /organism="Borrelia garinii"
    FT                   /strain="JEM4"
    FT                   /mol_type="genomic DNA"
    FT                   /db_xref="taxon:29519"
    FT   -35_signal      257..269
    FT   -10_signal      279..290
    FT   RBS             322..327
    FT   CDS             335..1153
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="ospA"
    FT                   /product="outer surface protein A"
    FT                   /db_xref="GOA:P96568"
    FT                   /db_xref="HSSP:1OSP"
    FT                   /db_xref="InterPro:IPR001809"
    FT                   /db_xref="InterPro:IPR023322"
    FT                   /db_xref="UniProtKB/TrEMBL:P96568"
    FT                   /protein_id="BAA19222.1"
    FT                   /translation="MKKYLLGIGLILALIACKQNVSSLDEKNGVSVDLPGEMKVLVSKE
    FT                   KDKDGKYSLMATVDKLELKGTSDKSNGSGVLEGEKADKSKAKLTISQDLNQTTFEIFQE
    FT                   DGKTLVSRKVNSKDKSSTEEKFNDKGKLSEKVVTRKDGTRLEYTEIQNDGSGKAKEVLE
    FT                   GLTLEGTLAADGKTTLTVTEGTVTLSKNISKSGEITVALDDTASANKKSGTWDSDTSTL
    FT                   TIIKNSQKTKQLVFTKENTITVQNYNTAGNALEGSPDEIKDLAKLQAALK"
    

Задание 3.

Поиск гомологов гена программой BLASTN

Создадим в своей рабочей директории fasta-файл с нуклеотидной последовательностью, кодирующей белок GUAD_BACSU. Для этого на сайте UniProt найдем запись о белке GUAD_BACSU и возьмем одну из записей EMBL, на которую ссылается эта запись Swiss-Prot. Выберем, например, EMBL-Bank: AJ002571.1 : Bacillus subtilis 168 56 kb DNA fragment between xlyA and ykoR. Здесь найдем соответствующий белку CDS:
FT   CDS             complement(34802..35272)
FT                   /transl_table=11
FT                   /gene="ykoA"
FT                   /product="YkoA"
FT                   /function="unknown"
FT                   /db_xref="GOA:O34598"
FT                   /db_xref="InterPro:IPR002125"
FT                   /db_xref="InterPro:IPR016192"
FT                   /db_xref="InterPro:IPR016193"
FT                   /db_xref="PDB:1TIY"
FT                   /db_xref="PDB:1WKQ"
FT                   /db_xref="UniProtKB/Swiss-Prot:O34598"
FT                   /protein_id="CAA05596.1"
FT                   /translation="MNHETFLKRAVTLACEGVNAGIGGPFGAVIVKDGAIIAEGQNNVT
FT                   TSNDPTAHAEVTAIRKACKVLGAYQLDDCILYTSCEPCPMCLGAIYWARPKAVFYAAEH
FT                   TDAAEAGFDDSFIYKEIDKPAEERTIPFYQVTLTEHLSPFQAWRNFANKKEY"
Видим координаты 34802-35272 в комплементарной цепи, вырежем этот участок программой seqret:
  • Запускаем команду
     seqret -sask 
    Далее вводим необходимые параметры.
  • "input (gapped) sequence" - имя исходного файла (AJ002571.txt);
  • "Begin at position [start]:" - начало вырезаемого участка (34802);
  • "End at position [end]:" - конец вырезаемого участка (35272) ;
  • "Reverse strand" - "n" - если участок на прямой цепи, "y" - если на обратной (y).
  • На выходе файл guad1.fasta
Длина гена 471 bp на комплементарной цепи.
Теперь поищем гомологи этого гена в том же геноме, что в задании 1, но программой BLASTN.
blastn -query guad1.fasta -db lm -out lmal1.txt -evalue 0.001 -task blastn
blastn -query AJ002571.txt -db lm -out lmal333.txt -evalue 0.001 -task blastn

Находок гомологов моего белка при поиске BLASTN не оказалось. Поиск гомологов TBLASTN лучше, чем с помощью BLASTN. Нашедшееся выравнивание в первой случае мало отличается от случайного для BLASTN, т.к. вероятность совпадения у него меньше из-за возможности кодирования одной аминокислоты разными триплетами.


Наверх