Standalone BLAST
Поиск гомологов кодирующих последовательностей
Был проведен поиск гомолога аденилат киназы из Bacillus subtilis (P16304) в геноме бактерии Streptococcus agalactiae.
Для этого сначала была создана нуклеотидная база данных на основе полного генома Streptococcus agalactiae,это было сделано с помощью команды:
makeblastdb -in sa_genome.fasta -dbtype nucl
По полученной базе данных программой tblastn был проведен поиск гомлога аденилат киназы командой:
tblastn -query P16304.fasta -db sa_genome.fasta -out tblastn.out -evalue 0.001
В полученном файле оказалось выравнивание и данные о найденном гомологе, они привдены в таблице.
Число находок с E-value < 0,001 |
1 |
E-value лучшей находки |
9e-69 |
Название последовательности с лучшей находкой |
Streptococcus agalactiae NEM316 complete genome, segment 1 |
Координаты лучшей находки (от-до) |
87554-88189 |
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой |
. |
Поиск гомологов некодирующих последовательностей
Затем по файлу, содержащему все тРНК из генома Bacillus subtilis, был проведен в базе данных, использованной в первом разделе. На этот раз использовался алгоритм blastn:
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna.out -evalue 0.01 -outfmt 7
Затем с помощью команды grep из исходного файла был получен список названий тРНК, а из конечного - количество хитов на каждую тРНК. Эти данные приведены в файле.
Поиск гомологов при изменённых параметрах программы BLASTN
Проделланые выше операции были повторены еще 2 раза, но с некоторыми дополнениями. Была изменена весовая матрица. В первом случае были добавлены параметры reward и penalty, равные 5 и -4 соответственно.
После задания этих параметров необходимо определить параметры gapopen и gapextend, были выбраны значения 25 и 10 соответственно.
Таким образрм, команда вынлядела так:
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna1.out -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -evalue 0.01 -outfmt 7
Во втором же случае помимо этих двух параметров был задан параметр word_size со значением 4 (минимальное значение для работы программы).
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna2.out -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4 -evalue 0.01 -outfmt 7
Затем для выходных файлов обеих команд был запущен тот же скрипт, что и в предыдущем разделе. Таблица с количеством хитов на каждый из 3 запусков blastn приведены в файле.
Анализ результатов
Была выбрана аспарагиновая тРНК BSn5_t20892 tRNA-Asn (координаты: 28016.28076), которая находится blastn только при минимальном параметре wordsize. Ее последовательность получена командой seqret -sask.
Эта последовательность была выровняна с последовательностью, кодирующей ту же тРНК в геноме B. subtilis, с помощью команды needle. Полученное выравнивание и информация о нем привдены ниже.
BSn5_t20892 1 gctctagtagcacagc-ggatagtgcagcagtttcctaaactgcaggtcg 49
|||||.|||| ||.|||.||..|.|.|||.||..|.|.||||||
AL766843 1 ------gtagctcagctggctagagcgtccggttcatacccgggaggtcg 44
BSn5_t20892 50 ggagttcgaatctctcctagagcg 73
||.||||||..|.||||
AL766843 45 ggggttcgatcccctcc------- 61
Gap_penalty | 10.0 |
Extend_penalty | 0.5 |
Length | 74 |
Identity | 44/74 (59.5%) |
Similarity | 44/74 (59.5%) |
Gaps | 14/74 (18.9%) |
Score | 146.0 |
Время работы программы BLAST
© Марк Меерсон, 2013
Последнее обновление: 26.11.2013