Используя Standalone BLAST, попытаемся найти гомологи белка UVRB_BACSU (опять резервный, опять нет в списке) в геноме Geobacillus thermodenitrificans.
Для этого используем команду makeblastdb -in gt_genome.fasta -dbtype nucl в рабочей директории с последовательностью генома в fasta-формате и последовательностью нашего белка:
Для поиска будем использовать алгоритм tblastn с параметром e-value 0,001. Для этого:
tblastn -query uvrb_bacsu.fasta -db gt_genome.fasta -out gomologi.out -evalue 0.001
По полученному файлу составим соответствующую таблицу:
Число находок с E-value < 0,001 | 1 |
E-value лучшей находки | 0.0 |
Название последовательности с лучшей находкой | CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome |
Координаты лучшей находки (от-до) | 3134333-3132414 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | ~67,3% |
Затем по файлу trna_bacsu.fasta (содержащит все тРНК из генома Bacillus subtilis), был проведен поиск в базе данных, аналогично первому разделу, только уже по алгоритму blastn:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna.out -evalue 0.01 -outfmt 7 - файл trna.out
Теперь же, выполнив команду создадим колонку из названий входных последовательностей и импортиуем ее в Excel командой:
grep ">" trna_bacsu.fasta > trna.xlsx
Затем с помощью скрипта получим итоговую таблицу со списком названий тРНК и числом хитов на каждую из них.
Повторяем предыдущее задание с дргуими параметрами, соответственно условию задачи:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna1.out
-reward 5 -penalty -4 -gapopen 25 -gapextend 10 -evalue 0.01 -outfmt 7
(добавились параметры reward и penalty, равные 5 и -4 соответственно, gapopen и gapextend равны 25 и 10).
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna2.out
-reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4 -evalue 0.01 -outfmt 7
(помимо предыдущих параметров добавился word_size со значением 4 (минимальное значение для работы программы))
Полученные файлы: trna1.out и trna2.out
Теперь снова использовав наш скрипт, получим еще два соответствующих столбца уже в итоговой таблице.
По мере увеличения весовой матрицы количество хитов также увеличивается. Количество хитов еще выше при уменьшении длины затравки.
Если же весовую матрицу зафиксировать, а менять лишь длину затравки количество хитов увеличивается со значительно меньшей скоростью.
Значит, весовая матрица оказывает большее влияние на количество хитов, нежели длина затравки, которая, в свою очередь, все же тоже играют свою роль.
Для дальнейшей работы выберем юбилейную тРНК BSn5_t21000, так как не удалось найти тРНК, которая есть в хитах при поиске с одними параметрами, и отсутсвуют в другом.
Вырежем гомологичный участок в отдельный файл командой seqret gt_genome.fasta -sask, границы (155676-155750). файл
Затем вырезаем интересующую тРНК из trna_bacsu.fasta, полученный файл.
Выровняем полученные две последовательности с помощью needle. Получим файл с выравниванием.
Из последнего файла получим данные о выравнивании:
Как видно, качество выравнивания очень высоко. Вероятно поэтому находка была выявлена во всех трех поисках.