Standalone BLAST

Поиск в геноме участков, кодирующих белки, похожие на заданный

Для поиска гомолога белка Expansin-YoaJ precursor (YOAJ_BACSU) в геноме бактерии Bacillus licheniformis рабочей директории индексные файлы пакета BLAST+. База данных для поиска программой tblastn:

			makeblastdb -in bl_genome.fasta -dbtype nucl  
			

И файл с аминокислотной последовательностью YOAJ_BACSU:

			seqret sw:yoaj_bacsu    
			

Поиск был выполнен с помощью команды:

			tblastn -query yoaj_bacsu.fasta -db bl_genome.fasta
			-evalue 0.001    
			

В геноме Bacillus licheniformis был найден один гомолог белка YOAJ_BACSU. Результаты поиска показаны в таблице 1.

Таблица 1. Поиск гомолога белка Expansin-YoaJ precursor (YOAJ_BACSU) в геноме бактерии Bacillus licheniformis.

Число находок с E-value < 0,001 1
E-value лучшей находки 1.00E-118
Название последовательности с лучшей находкой Bacillus licheniformis DSM 13, complete genome.
Координаты лучшей находки (от-до) 2231098 - 2231793
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой 100%

Поиск гомологов некодирующих последовательностей программой BLASTN

В этом задании проводится поиск гомологов различных тРНК Bacillus subtilis в геноме Bacillus licheniformis. Использовалась программа blastn с порогом e-value 0.01:

			blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 0.01
			-outfmt 6
			

Был получен файл trna.txt.
Для того, чтобы определить число находок, приходящихся на одну последовательность тРНК, командой grep была создана колонка названий входных последовательностей тРНК:

 
			grep ">" trna_bacsu.fasta
			

Далее был создан скрипт hitcount.sh и получена таблица trna.xls с количеством находок.

Поиск гомологов при изменённых параметрах программы BLASTN

Предыдущее заданее было повторено с измененными параметрами BLASTN. С помощью приведенных ниже команд было получено еще три дополнительные колонки в таблицу.

			blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 0.01
			-reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 6 > 5-4106.txt
 
			blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 0.01 
			-reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 6 > 5-4106ws4.txt
 
			blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 0.01 
			-word_size 4 -outfmt 6 > stws4.txt

Были получены файлы с данными о выравниваниях
5-4106.txt с параметрами: -reward 5 -penalty -4 -gapopen 10 -gapextend 6.
5-4106ws4.txt с параметрами: -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4.
stws4.txt со стандартными параметрами -reward 5 -penalty -4 -gapopen 10 -gapextend 6, но с минимально возможной длиной слова.
В ходе работы были изменены параметры -reward, -penalty, -gapopen, -gapextend и -word_size. Что они означают?
-reward - число, которое начисляется за совпадение (>=0);
-penalty - штраф, который начисляется за несовпадение (<=0);
-gapopen - штраф за первый gap;
-gapextend - штраф за каждый следующий gap.
-word_size - длина "слова", с которой выполняется алгоритм. Количество букв в рамке, по которой определяется совпадение или несовпадение (>=4).

Анализ результатов

При увеличении веса совпадения увеличивается число находок, но не сильно. При минимальной длине "слова" число находок больше, чем при стандартной.
Для анализа была выбрана пара, которая отсутствует при выравнивании со стандартными параметрами и присутствует при уменьшении длины слова. Это предполагаемая изолейциновая тРНК (получена из выравнивания с BSn5_t20972 tRNA-Ile) с координатами в геноме Bacillus licheniformis 11447 - 11521. Был получен файл с этой последовательностью:

			seqret -sask bl_genome.fasta
			Read and write (return) sequences
			Begin at position [start]: 11447
			End at position [end]: 11521
			Reverse strand [N]: n
			output sequence(s) [ae017333.fasta]:
			

Далее этот фрагмент был выровнен с последовательностями тРНК Bacillus subtilis:

			needle ae017333.fasta trna_bacsu.fasta 
			Needleman-Wunsch global alignment of two sequences
			Gap opening penalty [10.0]:
			Gap extension penalty [0.5]:
			Output alignment [ae017333.needle]:
			

Далее показаны результаты выравнивания.

			# Aligned_sequences: 2
			# 1: AE017333
			# 2: BSn5_t20972
			# Matrix: EDNAFULL
			# Gap_penalty: 10.0
			# Extend_penalty: 0.5
			#
			# Length: 82
			# Identity:      60/82 (73.2%)
			# Similarity:    60/82 (73.2%)
			# Gaps:          12/82 (14.6%)
			# Score: 197.0
			# 
			#
			#=======================================

			AE017333           1 gggcct-tagctcagctgg-gagag----cgcctgctttgcacgcaggag     44
					     |||||| |||||||||||| .||||    ||||||.|    |.||..|||
			BSn5_t20972        1 gggcctgtagctcagctggttagagcgcacgcctgat----aagcgtgag     46

			AE017333          45 gtcagcggttcgatcccgct-aggctccacca     75
					     |||.|.|||||||..||.|| |||| ||||||
			BSn5_t20972       47 gtcggtggttcgagtccactcaggc-ccacca     77

			#=======================================
			
			#=======================================
			#
			# Aligned_sequences: 2
			# 1: AE017333
			# 2: BSn5_t20950
			# Matrix: EDNAFULL
			# Gap_penalty: 10.0
			# Extend_penalty: 0.5
			#
			# Length: 76
			# Identity:      75/76 (98.7%)
			# Similarity:    75/76 (98.7%)
			# Gaps:           1/76 ( 1.3%)
			# Score: 375.0
			# 
			#
			#=======================================

			AE017333           1 -gggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag     49
					      |||||||||||||||||||||||||||||||||||||||||||||||||
			BSn5_t20950        1 ggggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag     50

			AE017333          50 cggttcgatcccgctaggctccacca     75
					     ||||||||||||||||||||||||||
			BSn5_t20950       51 cggttcgatcccgctaggctccacca     76

			#=======================================
			
			# Aligned_sequences: 2
			# 1: AE017333
			# 2: BSn5_t20968
			# Matrix: EDNAFULL
			# Gap_penalty: 10.0
			# Extend_penalty: 0.5
			#
			# Length: 76
			# Identity:      75/76 (98.7%)
			# Similarity:    75/76 (98.7%)
			# Gaps:           1/76 ( 1.3%)
			# Score: 375.0
			# 
			#
			#=======================================

			AE017333           1 -gggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag     49
				             |||||||||||||||||||||||||||||||||||||||||||||||||
			BSn5_t20968        1 ggggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag     50

			AE017333          50 cggttcgatcccgctaggctccacca     75
					     ||||||||||||||||||||||||||
			BSn5_t20968       51 cggttcgatcccgctaggctccacca     76

			#=======================================
			
			# Aligned_sequences: 2
			# 1: AE017333
			# 2: BSn5_t20974
			# Matrix: EDNAFULL
			# Gap_penalty: 10.0
			# Extend_penalty: 0.5
			#
			# Length: 76
			# Identity:      75/76 (98.7%)
			# Similarity:    75/76 (98.7%)
			# Gaps:           1/76 ( 1.3%)
			# Score: 375.0
			# 
			#
			#=======================================

			AE017333           1 -gggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag     49
					      |||||||||||||||||||||||||||||||||||||||||||||||||
			BSn5_t20974        1 ggggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag     50

			AE017333          50 cggttcgatcccgctaggctccacca     75
					     ||||||||||||||||||||||||||
			BSn5_t20974       51 cggttcgatcccgctaggctccacca     76

			#=======================================
			

На приведенных выравниваниях видно, что фрагмент генома Bacillus licheniformis с координатами 11447 - 11521 выравнивается с изолейциновой тРНК хуже, чем с другими тремя. Другие три тРНК, которые дали хорошие выравнивания: BSn5_t20974, BSn5_t20968, BSn5_t20950 соответственно две аланиновые и одна глициновая. Как же такое могло получиться? Выравнивание обсуждаемого участка с изолейциновой тРНК было получено алгоритмом с минимальной длиной слова, а значит с увеличенной чувствительностью, однако в этом случае она была излишней. Гены, кодирующие разные тРНК очень похожи между собой, а значит могут выравниваться друг с другом. Поэтому для более точного определения предполагаемых тРНК нужно проводить выравнивание с более строгими параметрами и прибегать к другим методам исследования. Какая это тРНК на самом деле, аланиновая или глициновая, выяснить предложенными методами не получится, так как последовательности BSn5_t20968 и BSn5_t20950 совпадают. Хотя утверждается, что они кодируют разные тРНК. Могут ли две разные тРНК иметь одинаковые последовательности? Не должны, хотя бы потому, что разные аминокислоты кодируются разными кодонами. Возможно, что в данном организме одна из них не транслируется. Однако, стоит заметить, что изолейцин, аланин и глицин близки по свойствам, и ошибка в трансляции, скорее всего, не будет катастрофичной для работы белка.


© Анисимова Александра, 2013