Standalone BLAST
Поиск в геноме участков, кодирующих белки, похожие на заданный
Команды:Поиск гомологов белка OXDC_BACSU в геноме Baccilus licheniformis
| Число находок с E-value<0,001 | 2* |
| E-value лучшей находки | 0.0 |
| Название последовательности с лучшей находкой | AE017333 Bacillus licheniformis DSM 13, complete genome. |
| Координаты лучшей находки (от-до) | 3420589 - 3421728 |
| Доля последовательности OxdC, вошедшая в выравнивание с лучшей находкой | 380/385=0,99% |
Поиск гомологов некодирующих последовательностей программой BLASTN
Нужно, используя файл с последовательностями всех тРНК из генома B. subtilis, узнать, сколько гомологов находится в геноме Baccilus licheniformis для этих последовательностей.Команда: blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -out trnabl.out -evalue 0.01 -outfmt 7, где trna_bacsu.fasta - файл с последовательностями тРНК, -evalue [цифра] - порог e-value, a -outfmt [цифра] - вид вывода результатов, в данном случае таблица
Далее с помощью команд bash было необходимо подсчитать количество результатов для каждой тРНК. Для этого используется следующий скрипт. С помощью FAR переведём его в формат для Unix и активируем командой chmod +x. Запуск скрипта через Putty производим так: ./scr.sh, если находимся в той директории, где находится и файл скрипта. Таблицу с результатами см. в следующем задании.
Поиск гомологов при изменённых параметрах программы BLASTN
При попытках изменить reward и penalty - параметры подсчёта веса выравнивания ("вознаграждение" за совпадение и штраф за миссметч), программа не работает и пишет следущее:10 and 6 are supported existence and extension values 8 and 6 are supported existence and extension values 25 and 10 are supported existence and extension values Any values more stringent than 25 and 10 are supportedВыберем в качестве штрафов за открытие и продление гэпа 26 и 11.
Команда: blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -out trnabl.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 26 -gapextend 11
Теперь изменим и длину слова:
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -out trnabl.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 26 -gapextend 11 -word_size 4
Результаты (число найденных тРНК каждого типа) представлены в этой ТАБЛИЦЕ.
Анализ полученных результатов
При изменении штрафов результаты изменяются незначительно, а вот в сочетании с маленькой длиной слова число результатов резко подскакивает, возможно, в связи с нахождением гомологов среди тРНК других типов (не к той же аминокислоте) или просто случайных последовательностей, всё-таки длина любой тРНК не слишком большая. Рассмотрим несоответствие: сериновая тРНК, которая находится только при уменьшении длины слова: Выравнивание needle (см. ниже) довольно плохое - имеет маленькую длину:
Aligned_sequences: 2
# 1: AE017333
# 2: BSn5_t20970
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
# Length: 93
# Identity: 27/93 (29.0%)
# Similarity: 27/93 (29.0%)
# Gaps: 62/93 (66.7%)
# Score: 119.0
AE017333 0 -------------------------------------------------- 0
BSn5_t20970 1 ggaggaatacccaagtccggctgaagggatcggtcttgaaaaccgacagg 50
AE017333 1 ------------cgcgagggttcaaatccctccttctccgcca 31
||||.||||||.||||||||.|.||||||||
BSn5_t20970 51 ggtgtcaaagcccgcgggggttcgaatccctcttcctccgcca 93
Как и ожидалось, никакой тРНК в геноме в этом месте не нашлось, т.е. это просто случайный кусок генома.