STANDALONE BLAST

Назад
Задание 1
При помощи Standalone BLAST (SAB) я провёл поиск гомологов белка YokD_BacSu в геноме бактерии Listeria monocytogenes. Я преобразовал данный геном в нуклеотидный БД командой

makeblastdb -in lm_genome.fasta -dbtype nucl

Далее я применил алгоритм tblastn для поиска нуклеотидных последовательностей, кодирующих гомологи белка YokD:

tblastn -query YokD.fasta -db lm_genome.fasta -out YokD.txt -evalue 0.001

Был получен файл YokD.fasta, содержащий обнаруженные выравнивания с e-value не более 0,001.
Было найдено только одно такое выравнивание, покрывающее 261/272 аминокислот белка, с e-value 7e-71. Координаты выравнивания в геноме: 16738-17517 на рамке считывания (-2) последовательности AL591981.1 (L.monocytogenes EGD-e, complete genome, segment 9/12).

Задание 2
При помощи blastn я провёл поиск последовательностей, гомологичных тРНК-кодирующей ДНК Bacillus subtilis BSn5 в геноме L.monocytogenes:

blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -out tRNA.xls -evalue 0.01 -outfmt 7

В фале tRNA.xls лежат обнаруженные соответствия. Теперь посчитаем, сколько для каждой тРНК было найдено соответсвий:

grep '>' -in trna_bacsu.fasta -out greptRNA.xls
#список названий последовательностей, кодирующих ДНК в B.Subtilis, выведен в таблицу
chmod +x script.sh
./script.sh

Здесь был применён скрипт для подсчёта упоминаний названий всех тРНК в таблице tRNA.xls. Количество обнаруженных совпадений на единицу меньше, чем количество упоминаний. В результате была составлена следующая таблица.

Задание 3
Команду blast применили ещё два раза с другими параметрами:

blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -out tRNA.xls -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6

blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -out tRNA.xls -evalue 0.01 -outfmt 7 -word_size 4 -gapopen 10 -gapextend 6 -penalty -4 -reward 5

После чего опять посчитали количество совпадений с каждой тРНК для новых настроек. Результаты всех трёх бластов занесены в таблицу.

Задание 4
Изменение весовой матрицы при втором поиске немного увеличивает количество найденных соответствий.
Можно отметить, что установка минимальной длины слова (4) значительно увеличивает количество находок. При такой длине слова находятся последовательности с более низкой идентичностью тРНК из B.Subtilis.
Последний запуск обнаружил сходство между участком генома 46135-209 и тРНК BSn5_t20966 tRNA-Ile, которого не увидели два других:

query id subject id % identity alignment lenghth mismatches gap opens q.start q.end s.start s.end evalue evalue bit score
BSn5_t20966 tRNA-Ile embl|AL591983 72.73 77 19 2 1 77 46209 46135 2,00E-06 44.3


Вот полный список найденных бластом соответствий при третьем запуске: 3tRNA.xls.
Алгоритмом needle было произведено выравнивание обозначенного участка генома с тРНК кишечной палочки:

Применённые команды:
#сначала из участка генома Listeria monocytogenes выделим последовательность с нужными координатами
seqret AL591983.fasta r46135-209.fasta -sask
#потом проведём её выравнивание с нужной последовательностью тРНК
needle r46135-209.fasta trna_bacsu.fasta:BSn5_t20966

			########################################
# Program: needle
# Rundate: Thu 12 Dec 2013 01:15:23
# Commandline: needle
#    [-asequence] r46135-209.fasta
#    [-bsequence] trna_bacsu.fasta:BSn5_t20966
# Align_format: srspair
# Report_file: al591983.needle
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: AL591983.1
# 2: BSn5_t20966
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 82
# Identity:      60/82 (73.2%)
# Similarity:    60/82 (73.2%)
# Gaps:          12/82 (14.6%)
# Score: 197.0
# 
#
#=======================================

AL591983.1         1 GGGCCT-TAGCTCAGCTGG-GAGAG----CGCCTGCTTTGCACGCAGGAG     44
                     |||||| |||||||||||| .||||    ||||||.|    |.||..|||
BSn5_t20966        1 gggcctgtagctcagctggttagagcgcacgcctgat----aagcgtgag     46

AL591983.1        45 GTCAGCGGTTCGATCCCGCT-AGGCTCCACCA     75
                     |||.|.|||||||..||.|| |||| ||||||
BSn5_t20966       47 gtcggtggttcgagtccactcaggc-ccacca     77


#---------------------------------------
#---------------------------------------
		


Как видно, выравнивание недостаточно точное для таких консервативных структур, как тРНК одного типа. И верно, запись этого участка генома в GenBank заявляет, что данный участок занимает ген не изолейциновой, а аланиновой тРНК:
			
		 tRNA           complement(46135..46210)
						/product="tRNA-Ala"
			
		

© Галкин Федор