Программы пакета BLAST для работы с нуклеотидными последовательностями


Поиск в геноме участков, кодирующих белки, похожие на заданный


Известна аминокислотная последовательность белка FTSH_ECOLI из Escherichia coli K-12.

В рабочей директории были созданы индексные файлы пакета BLAST для поиска по геному Pasteurella multocida

formatdb -i pm_genome.fasta -p F -n pm

Дальше посредством Putty была запущена программа TBLASTN с пороговым значением E-value 0,001.

blastall -p tblastn -d pm -i fe.fasta -o out.txt -e 0.001

Результат работы программы - results(.txt). По результатам поиска была заполнена таблица:

Число находок с Е-value<0,001
      
3
Характеристика лучшей находки:
  • E-value находки
0.0
  • AC соответствующей записи EMBL

AE006080
  • Координаты выравнивания в записи EMBL
 
839 - 2716

Поиск гомологов с помощью программы BLASTN

Вырежем участок ы отдельный файл по координатам полученным в предыдущем задании

seqret pm_genome.fasta:ae006080 -sask

На сайте EBI (http://www.ebi.ac.uk/Tools/) был запущен поиск этой последовательности в банке "EMBL standard prokaryote".

Score = 3490 bits (3870), Expect = 0.0
Identities = 1935/1935 (100%)

Координаты с 513163 по 515022(BlastN)

Запись EMBL:
FT CDS 513163..515082
FT /codon_start=1
FT /transl_table=11
FT /gene="ftsH"

FT /db_xref="UniProtKB/TrEMBL:Q9CNJ2" FT /protein_id="AAK02522.1"

Последовательность белка:


>tr|Q9CNJ2|Q9CNJ2_PASMU FtsH OS=Pasteurella multocida GN=ftsH PE=4 SV=1 MVKNLVLWIVVAVVMMTAYQGFNSSSSGNTTDYTTFITDLGNDQIRQARFDYNEIFVTKT DGSKYTTVMPLNDDKLLNDLLNKKVKVEGTLPEKRGLFSQILISWFPMLLLIGVWFFFMR QMQGGGSKAMSFGKSRARMMTQEQIKTTFADVAGCDEAKEEVGEIVDFLRDPGKFQKLGG KIPKGILMVGPPGTGKTLLAKAIAGEAKVPFFTISGSDFVEMFVGVGASRVRDMFEQAKK NAPCLIFIDEIDAVGRQRGAGLGGGHDEREQTLNQMLVEMDGFEGNEGVIVIAATNRPDV LDPALTRPGRFDRQVVVGLPDVRGREQILKVHMRRVPIAPDVDAMTLARGTPGYSGADLA NLVNEAALFAARTNKRLVTMLEFEKAKDKINMGPERRTMIMTEKQKESTAYHEAGHAIVG YLVPEHDPVHKVTIIPRGRALGVTFFLPEGDQVSISQKQLESKLSTLYAGRLAEDLIYGE ENISTGASNDIKVATNIARNMVTQWGFSEKLGPILYSEDDGEVFLGRSMAKAKHMSDETA HLIDEEVRTIVTRNYERARQILIDNMDILHAMKDALVKYETIEEEQIEQLMKRQPVTPPS GWDENEPTTQNNAGTKASPEPKSAVETEQDSDHQSPSDK

Blastn и Tblastn

Теперь запустим tblastn и blastn, в поле ввода для программы tblastn подаем белковую последовательность(указана выше), а для blastn вводим нуклеотидную последовательность (ftsh.fasta) и укажем для обоих поисков организм Pasteurella multocida

Программы Tblastn Blastn
Количество находок 1(AE004439) 1(AE004439)
E-value лучшей находки 0 0
Координаты выравнивания в записи EMBL для лучшей находки 513163-515040 513463-514974
Длина выравнивания 1877 1511
Вес лучшей находки 915 967

Аминокислотная последовательность более консервативна, в отличии от генетического кода. Это связано с тем, что одна и та же аминокислота может кодироваться несколькими треплетами.
Таким образом, программы Tblastn и Blastn могут использоваться в анализе геномов, Tblastn в поиске гомологов данной последовательности, а Blastn помогает в поиске конкретной последовательности.

Работа с программой getorf пакета EMBOSS

Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок
длиной более 30 нуклеотидов,
считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном,
при использовании бактериального кода

D89965.fasta

Для этого была выполнена следующая команда:

getorf -minsize 30 -find 1 -table 11
Finds and extracts open reading frames (ORFs)
Input nucleotide sequence(s): d89965.fasta
protein output sequence(s) [d89965.orf]:

На выходе получили файл d89965.orf

Опять используем программу BLAST, увидим, что записи в банке EMBL соответствует рамка №5, а записи Swiss-Prot соответствует рамка №13(P0A7B8).


Запустил программу blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — отформатированный геном бактерии Pasteurella multocida.
Создал колонку из названий входных последовательностей командой
grep ">" trna_ecoli.fasta
Создал скрипт из команд, выдающих число находок для каждой последовательности(1.script(unix формат)).

Повторил поиск, на этот раз указав порог на E-value, равный 0.001.

Данные все записал в таблицу

trna.xls

Поиск некодирующих последовательностей
Скачать файл Excel с результатами выполнения задания

Поиск некодирующих последовательностей программой BLASTN

Запустил программу blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — отформатированный геном бактерии Pasteurella multocida

blastall -p blastn -d pm -i trna_ecoli.fasta -m 8 > bl1.txt

С порогом E-value < 0.001:

blastall -p blastn -d pm -i trna_ecoli.fasta -m 8 -e 0.001 > bl2.txt

Поиск некодирующих последовательностей программой megablast
Megablast:

Программа megablast запускается с опциями, большая часть которых аналогична опциям программы blastall; при этом можно использовать те же индексные файлы

megablast -d pm -i trna_ecoli.fasta -m 8 >bl3.txt

Discontigous megablast:

megablast -d pm -i trna_ecoli.fasta -m 8 -D 2 -t 18 -W 11 -N 1 > bl4.txt

Описание значений параметров:
-D - тип выдачи 2 - стандартная выдача
-t - длина поискового слова, с учетом "разрывов".
-W - длина поискового слова, без учета "разрывов"
-N - тип поисковых слов.
0 - для поиска по кодирующим последовательностям.
1 - для поиска по некодирующим последовательностям.
2 - и по тем, и по другим.

Данные Blastn, Blastn(e<0.001), Megablast, Discontigous megablast приведены в таблице:

results.xls

Анализ результатов

В файле Excel, являющимся результатом предыдущего задания, найдем тРНК alaT, для которой BLASTN обнаружил гомологов, а MEGABLAST - нет. Megablast находит меньше числа находок blastn, это объясняется тем, что blastn ищет слова длины 11, а megablast - 28. .Поэтому если длина находки, меньшн чем 28, megablast не покажет нам данный фрагмент.
Вырежем гомологичную последовательность из бактерии Pasteurella multocida в отдельный файл:
seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): pm_genome.fasta:AE006082
Begin at position [start]: 6630
End at position [end]: 6705
Reverse strand [N]:
output sequence(s) [ae006082.fasta]: alaT_pm.fasta

Построим выравнивание программой needle:


needle trna_ecoli.fasta trpT_xc.fasta trpT.needle -auto

-gcgttcatagctcagttggttagagcacc-accttgacatggtgggggt -trna_ecoli
-|.|.| |||||||||.||| .|||||.|| .||||| ||.|..||.|||
ggggat-atagctcagctgg-gagagcgcctgccttg-cacgcaggaggt
-ae006082

cgttggttcgagtccaattgaacg--------cacca - trna_ecoli
|...||||||| ||| || |||||
cagcggttcga-tcc-------cgcttatctccacca - ae006082


Основные характеристики выравнивания:
Длина: 87
Идентичность: 53/87 (60.9%)
Сходство: 53/87 (60.9%)
Гэпы: 21/87 (24.1%)
Вес: 136.5

BLASTN не учитывает "хвосты" последовательностей, которые выходят за рамки выравнивания.

Гомологичный участок (6630-6705) не проаннотирован в записи embl бактерии.

 

© Замараев Алексей