Standalone BLAST

Поиск в геноме участков, кодирующих белки, похожие на заданный

Используя Standalone BLAST, попытаемся найти гомологи белка UVRB_BACSU (опять резервный, опять нет в списке) в геноме Geobacillus thermodenitrificans. Для этого используем команду makeblastdb -in gt_genome.fasta -dbtype nucl в рабочей директории с последовательностью генома в fasta-формате и последовательностью нашего белка:

Для поиска будем использовать алгоритм tblastn с параметром e-value 0,001. Для этого:
tblastn -query uvrb_bacsu.fasta -db gt_genome.fasta -out gomologi.out -evalue 0.001

По полученному файлу составим соответствующую таблицу:

Число находок с E-value < 0,001 1

E-value лучшей находки 0.0

Название последовательности с лучшей находкой CP000557 CP000557.1
Geobacillus thermodenitrificans NG80-2,
complete genome

Координаты лучшей находки (от-до) 3134333-3132414

Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой ~67,3%

Поиск гомологов некодирующих последовательностей программой BLASTN

Затем по файлу trna_bacsu.fasta (содержащит все тРНК из генома Bacillus subtilis), был проведен поиск в базе данных, аналогично первому разделу, только уже по алгоритму blastn:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna.out -evalue 0.01 -outfmt 7 - файл trna.out

Теперь же, выполнив команду создадим колонку из названий входных последовательностей и импортиуем ее в Excel командой:
grep ">" trna_bacsu.fasta > trna.xlsx

Затем с помощью скрипта получим итоговую таблицу со списком названий тРНК и числом хитов на каждую из них.

Поиск гомологов при изменённых параметрах программы BLASTN

Повторяем предыдущее задание с дргуими параметрами, соответственно условию задачи:

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna1.out
-reward 5 -penalty -4 -gapopen 25 -gapextend 10 -evalue 0.01 -outfmt 7
(добавились параметры reward и penalty, равные 5 и -4 соответственно, gapopen и gapextend равны 25 и 10).

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna2.out
-reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4 -evalue 0.01 -outfmt 7
(помимо предыдущих параметров добавился word_size со значением 4 (минимальное значение для работы программы))

Полученные файлы: trna1.out и trna2.out

Теперь снова использовав наш скрипт, получим еще два соответствующих столбца уже в итоговой таблице.

Анализ результатов

По мере увеличения весовой матрицы количество хитов также увеличивается. Количество хитов еще выше при уменьшении длины затравки.
Если же весовую матрицу зафиксировать, а менять лишь длину затравки количество хитов увеличивается со значительно меньшей скоростью.
Значит, весовая матрица оказывает большее влияние на количество хитов, нежели длина затравки, которая, в свою очередь, все же тоже играют свою роль.

Для дальнейшей работы выберем юбилейную тРНК BSn5_t21000, так как не удалось найти тРНК, которая есть в хитах при поиске с одними параметрами, и отсутсвуют в другом.

Вырежем гомологичный участок в отдельный файл командой seqret gt_genome.fasta -sask, границы (155676-155750). файл

Затем вырезаем интересующую тРНК из trna_bacsu.fasta, полученный файл.

Выровняем полученные две последовательности с помощью needle. Получим файл с выравниванием.

Из последнего файла получим данные о выравнивании:

Length: 75

Identity: 70/75 (93.3%)

Similarity: 70/75 (93.3%)

Gaps: 0/75 ( 0.0%)

Как видно, качество выравнивания очень высоко. Вероятно поэтому находка была выявлена во всех трех поисках.

© Mamedov Adalyat