Standalone BLAST

Поиск гомологов кодирующих последовательностей


Был проведен поиск гомолога аденилат киназы из Bacillus subtilis (P16304) в геноме бактерии Streptococcus agalactiae.
Для этого сначала была создана нуклеотидная база данных на основе полного генома Streptococcus agalactiae,это было сделано с помощью команды:
makeblastdb -in sa_genome.fasta -dbtype nucl
По полученной базе данных программой tblastn был проведен поиск гомлога аденилат киназы командой:
tblastn -query P16304.fasta -db sa_genome.fasta -out tblastn.out -evalue 0.001
В полученном файле оказалось выравнивание и данные о найденном гомологе, они привдены в таблице.

Число находок с E-value < 0,001 1
E-value лучшей находки 9e-69
Название последовательности с лучшей находкой Streptococcus agalactiae NEM316 complete genome, segment 1
Координаты лучшей находки (от-до) 87554-88189
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой .

Поиск гомологов некодирующих последовательностей

Затем по файлу, содержащему все тРНК из генома Bacillus subtilis, был проведен в базе данных, использованной в первом разделе. На этот раз использовался алгоритм blastn:
 blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna.out -evalue 0.01 -outfmt 7
Затем с помощью команды grep из исходного файла был получен список названий тРНК, а из конечного - количество хитов на каждую тРНК. Эти данные приведены в файле.

Поиск гомологов при изменённых параметрах программы BLASTN

Проделланые выше операции были повторены еще 2 раза, но с некоторыми дополнениями. Была изменена весовая матрица. В первом случае были добавлены параметры reward и penalty, равные 5 и -4 соответственно. После задания этих параметров необходимо определить параметры gapopen и gapextend, были выбраны значения 25 и 10 соответственно. Таким образрм, команда вынлядела так:
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna1.out -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -evalue 0.01 -outfmt 7
Во втором же случае помимо этих двух параметров был задан параметр word_size со значением 4 (минимальное значение для работы программы).
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna2.out -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4 -evalue 0.01 -outfmt 7
Затем для выходных файлов обеих команд был запущен тот же скрипт, что и в предыдущем разделе. Таблица с количеством хитов на каждый из 3 запусков blastn приведены в файле.

Анализ результатов

Была выбрана аспарагиновая тРНК BSn5_t20892 tRNA-Asn (координаты: 28016.28076), которая находится blastn только при минимальном параметре wordsize. Ее последовательность получена командой seqret -sask. Эта последовательность была выровняна с последовательностью, кодирующей ту же тРНК в геноме B. subtilis, с помощью команды needle. Полученное выравнивание и информация о нем привдены ниже.
BSn5_t20892        1 gctctagtagcacagc-ggatagtgcagcagtttcctaaactgcaggtcg     49
                           |||||.|||| ||.|||.||..|.|.|||.||..|.|.||||||
AL766843           1 ------gtagctcagctggctagagcgtccggttcatacccgggaggtcg     44

BSn5_t20892       50 ggagttcgaatctctcctagagcg     73
                     ||.||||||..|.||||       
AL766843          45 ggggttcgatcccctcc-------     61
Gap_penalty10.0
Extend_penalty0.5
Length74
Identity44/74 (59.5%)
Similarity44/74 (59.5%)
Gaps14/74 (18.9%)
Score146.0

Время работы программы BLAST

Главная страница Первый семестр Второй семестр Третий семестр Обо мне Ссылки

© Марк Меерсон, 2013
Последнее обновление: 26.11.2013