Вернуться на страницу семестров

Standalone BLAST


     Задание 1. Поиск в геноме участков, кодирующих белки, похожих на заданный.

✧Cсылка для скачивания и просмотра аминокислотной последовательности белка OPUAC_BACSU.
✧Ссылка на fasta-файл, с последовательностью полного генома бактерии Streptococcus agalactiae, полученный командой:
makeblastdb -in sa_genome.fasta -dbtype nucl
Далее вытащил данные для таблицы ниже, также ниже даны скрины команд (сделал, чтоб пользоваться, если понадобится в будущем)

Число находок с E-value < 0,001 2
E-value лучшей находки 6e-46
Название последовательности с лучшей находкой Streptococcus agalactiae NEM316 complete genome, segment 11
Координаты лучшей находки (от-до) 98866..98399
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой 72%


     Задание 2. Поиск гомологов некодирующих последовательностей программой BLASTN.

Получил файл tRNA.out, следующей командой:

Затем командой grep (а именно grep ">" trna_bacsu.fasta) была создана колонка названий входных последовательностей тРНК. Файл Exell я прикрепил ниже, с результатами задания №3 (для экономии время и места).


     Задание 3. Поиск гомологов при изменённых параметрах программы BLASTN. В первый раз измените весовую матрицу, то есть параметры -reward и -penalty. Установите -reward 5 и -penalty -4. При этом программа откажется работать, пока вы не поменяете также параметры -gapopen и -gapextend, и предложит возможные варианты. Выберите один из вариантов и придайте этим параметрам соответствующие значения. Во второй раз, оставив те же (изменённые по сравнению со значениями по умолчанию) значения параметров -reward, -penalty, -gapopen и -gapextend, поменяйте также значение параметра -word_size на минимально возможное

В этом задании необходимо проделать тоже самое, что в задании 2, но изменил немного параметры (изменена весовая матрица). Были сделаны следующие команды:

blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna1.out -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -evalue 0.01 -outfmt 7

blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna2.out -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4 -evalue 0.01 -outfmt 7

Ссылка на Exell файл, c результатами заданий 2 и 3 (я решил объединить для удобства)


     Задание 4. Анализ данных

В excel-файле видно, что количество находок мало изменяется (в некоторых случаях немного увеличивается) при увеличении веса совпадения. Сильное увеличение числа находок заметно при уменьшении длины слова. Со стандартной длиной слова не было найдено ни одной Thr тРНК, однако про уменьшении длины слова их нашлось 28. Для анализа результатов была выбрана предполагаемая Thr тРНК из генома Streptococcus agalactiae с координатами 28010-28083. Она была получена из выравнивания с BSn5_t20930 tRNA-Thr. Сначала с помощью следующей команды был получен файл с последовательностью этой предполагаемой тРНК:

Далее было сделано выравнивание этой последователтности с различными тРНК Bacillus subtilis. Cледующей командой:

needle al766843.fasta trna_bacsu.fasta

В результате было получено много выравниваний, ниже представлены самые лучшие из них.

 # Aligned_sequences: 2
# 1: AL766843
# 2: BSn5_t20930
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      72/77 (93.5%)
# Similarity:    72/77 (93.5%)
# Gaps:           3/77 ( 3.9%)
# Score: 352.0
# 
#
#=======================================

AL766843           1 ggcggtgtagctcagctggctagagcgtccggttcatacccgggaggtcg     50
                     ||||||||||||||||||||||||||||.|||||||||||||.|||||||
BSn5_t20930        1 ggcggtgtagctcagctggctagagcgtacggttcatacccgtgaggtcg     50

AL766843          51 ggggttcgatcccctccgccgcta---     74
                     ||||||||||||||||||||||||   
BSn5_t20930       51 ggggttcgatcccctccgccgctacca     77

Aligned_sequences: 2
# 1: AL766843
# 2: BSn5_t20976
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      72/77 (93.5%)
# Similarity:    72/77 (93.5%)
# Gaps:           3/77 ( 3.9%)
# Score: 352.0
# 
#
#=======================================



AL766843           1 ggcggtgtagctcagctggctagagcgtccggttcatacccgggaggtcg     50
                     ||||||||||||||||||||||||||||.|||||||||||||.|||||||
BSn5_t20976        1 ggcggtgtagctcagctggctagagcgtacggttcatacccgtgaggtcg     50

AL766843          51 ggggttcgatcccctccgccgcta---     74
                     ||||||||||||||||||||||||   
BSn5_t20976       51 ggggttcgatcccctccgccgctacca     77
#


# Aligned_sequences: 2
# 1: AL766843
# 2: BSn5_t20952
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 78
# Identity:      58/78 (74.4%)
# Similarity:    58/78 (74.4%)
# Gaps:           5/78 ( 6.4%)
# Score: 199.5
# 
#
#=======================================

AL766843           1 -ggcggtgtagctcagctggctagagcgtccggttcatacccgggaggtc     49
                      ||| .||||||||||||||.|||||||..||..|.|||..||.||||||
BSn5_t20952        1 gggc-ctgtagctcagctggttagagcgcacgcctgataagcgtgaggtc     49

AL766843          50 gggggttcga-tcccctccg--ccgcta     74
                     ||.||||||| |||.|||.|  ||.|.|
BSn5_t20952       50 ggtggttcgagtccactcaggcccacca     77

#=======================================
#
# Aligned_sequences: 2
# 1: AL766843
# 2: BSn5_t20904
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 78
# Identity:      56/78 (71.8%)
# Similarity:    56/78 (71.8%)
# Gaps:           5/78 ( 6.4%)
# Score: 181.5
# 
#
#=======================================

AL766843           1 -ggcggtgtagctcagctggctagagcgtccggttcatacccgggaggtc     49
                      ||| .||||||||||||||.|||||||..||..|.|||..||.||||||
BSn5_t20904        1 gggc-ctgtagctcagctggttagagcgcacgcctgataagcgtgaggtc     49

AL766843          50 gggggttcga-tcccctccg--ccgcta     74
                     |..||||||| |||..||.|  ||.|.|
BSn5_t20904       50 gatggttcgagtccattcaggcccacca     77 

Это выравнивания с BSn5_t20930 (из этого выравнивания была найдена анализируемая последовательность), BSn5_t20976 (tRNA-Met), BSn5_t20952 (tRNA-Met) и BSn5_t20904 (tRNA-Ser). Как видно, гены, кодирующие тРНК, очень похожи друг на друга. Здесь последоательности BSn5_t20930 и BSn5_t20976 совпадают, хотя утверждается, что они кодируют тРНК к разным аминокислотам. Возможно экспресиия одного из них в клетке подавлена. В данном случае была выбрана последовательность, выравнивание которой скорее всего оказалось хорошим в обоих случаях (разная длина слова), однако другие треониноые тРНК не нашлись при стандартной длине слова. При уменьшении длины слова сильно возрастает чувствительность алгоритма, а значит он принимает за подходящие не самые хорошие выравнивания. Так как гены тРНК похожи, при уменьшении длины слова резко возрастает количество находок.