Standalone BLAST

Поиск в геноме участков, кодирующих белки, похожие на заданный

Данный раздел посвящен поиску участков генома Listeria monocytogenes, кодирующих белки, похожие на PDXS_BACSU.

Индексные файлы пакета BLAST+ для поиска по заданному геному можно создать с помощью команды:

makeblastdb -in lm_genome.fasta -out lm -dbtype nucl

Для решения поставленной задачи следует использовать программу TBLASTN из пакета BLAST+, осуществляющую поиск гомологов белка в неаннотированных нуклеотидных последовательностях. Порог на E-value 0,001. Для запуска программы можно воспользоваться командой:

tblastn -query pdxs_bacsu.fasta -db lm -out pdxs-lm.txt -evalue 0.001

Результаты поиска, представленные в файле pdxs-lm.txt, занесены в таблицу 1.

Таблица 1. Поиск гомологов PDXS_BACSU в геноме L.monocytogenes. Результаты выдачи TBLASTN.

Число находок с E-value < 0,001 1
E-value лучшей находки 6,00E-152
Название последовательности с лучшей находкой Listeria monocytogenes strain EGD, complete genome, segment 10/12
Координаты лучшей находки (от-до) 81338-82213
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой 0.99 ([294-2]/294)

Поиск гомологов некодирующих последовательностей программой BLASTN

В файле trna_bacsu.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5. Цель данной работы заключается в поиске гомологов каждой из тРНК с помощью BLASTN в геноме родственной бактерии - L.monocytogenes, определении их количества.

blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -out tRNA.xls -evalue 0.01 -outfmt 7

Была запущена программа blastn для всех тРНК и для генома L.monocytogenes с порогом на e-value 0,01. Табличный формат выдачи (опция "-outfmt 6") был переведен в excel-файл tRNA.xls (в нем представлены обнаруженные соответствия).

Подсчет соответствий для каждой тРНК был проведен с помощью скрипта tablescript.sh и следующих команд:

grep '>' -in trna_bacsu.fasta -out greptRNA.xls
chmod +x tablescript.sh
./tablescript.sh

Выдача команды приведена в файле tRNA-grep-1.xls.

Поиск гомологов при изменённых параметрах программы BLASTN

Команду blast применили ещё два раза с другими параметрами:

Предыдущее заданее было повторено с измененными параметрами BLASTN. С помощью приведенных ниже команд было получено еще три дополнительные колонки в таблицу. Были запущены следующие команды:

blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -out tRNA.xls -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -out tRNA.xls -evalue 0.01 -outfmt 7 -word_size 4 -gapopen 10 -gapextend 6 -penalty -4 -reward 5

Так, в запуске BLASTN были изменены следующие параметры:

Интересующие данные были занесены в таблицу tRNA-grep-2.xls.

Анализ полученных данных

При увеличении веса совпадения (в весовой матрице) увеличивается число находок, но не сильно. При минимальной длине "слова" число находок больше, чем при стандартной.

Для анализа была выбрана пара, которая отсутствует при выравнивании со стандартными параметрами и присутствует при уменьшении длины слова. Был получен файл с последовательностью предполагаемой изолейциновой тРНК из выравнивания с координатами 46209-46135 в геноме L.monocytogenes.

seqret AL591983.fasta ile-2.fasta -sask

Выравнивание полученной последовательности с тРНК B.subtillis было проведено по алгоритму Нидлмана-Вунша с помощью программы needle. Результат выравнивания представлен в файле aligment-trna-neddle.txt.

Как видно, выравнивание достаточно слабое при учете того, что гены тРНК одного типа очень консервативны.

Программа BLASTN могла найти тРНК и разных типов аминокислот, но сходных по последовательностям, потому что выравание получали с использованием алгоритма с минимальной длиной слова. Заметим, что описанный фрагмент не является не геном аланиновой тРНК, а не изолейциновой.

Можно сделать вывод, что поиск предполагаемых тРНК-генов нужно проводить с очень строгими параметрами выравнивания.


Последнее изменение: 2-12-2013 (pankevich-ev)