Для поиска гомолога белка Expansin-YoaJ precursor (YOAJ_BACSU) в геноме бактерии Bacillus licheniformis рабочей директории индексные файлы пакета BLAST+. База данных для поиска программой tblastn:
makeblastdb -in bl_genome.fasta -dbtype nucl
И файл с аминокислотной последовательностью YOAJ_BACSU:
seqret sw:yoaj_bacsu
Поиск был выполнен с помощью команды:
tblastn -query yoaj_bacsu.fasta -db bl_genome.fasta -evalue 0.001
В геноме Bacillus licheniformis был найден один гомолог белка YOAJ_BACSU. Результаты поиска показаны в таблице 1.
Число находок с E-value < 0,001 | 1 |
E-value лучшей находки | 1.00E-118 |
Название последовательности с лучшей находкой | Bacillus licheniformis DSM 13, complete genome. |
Координаты лучшей находки (от-до) | 2231098 - 2231793 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 100% |
В этом задании проводится поиск гомологов различных тРНК Bacillus subtilis в геноме Bacillus licheniformis. Использовалась программа blastn с порогом e-value 0.01:
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 0.01 -outfmt 6
Был получен файл trna.txt.
Для того, чтобы определить число находок, приходящихся на одну последовательность тРНК, командой grep была создана колонка названий входных последовательностей тРНК:
grep ">" trna_bacsu.fasta
Далее был создан скрипт hitcount.sh и получена таблица trna.xls с количеством находок.
Предыдущее заданее было повторено с измененными параметрами BLASTN. С помощью приведенных ниже команд было получено еще три дополнительные колонки в таблицу.
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 6 > 5-4106.txt
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 6 > 5-4106ws4.txt
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 0.01 -word_size 4 -outfmt 6 > stws4.txt
Были получены файлы с данными о выравниваниях
5-4106.txt с параметрами: -reward 5 -penalty -4 -gapopen 10 -gapextend 6.
5-4106ws4.txt с параметрами: -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4.
stws4.txt со стандартными параметрами -reward 5 -penalty -4 -gapopen 10 -gapextend 6, но с минимально возможной длиной слова.
В ходе работы были изменены параметры -reward, -penalty, -gapopen, -gapextend и -word_size. Что они означают?
-reward - число, которое начисляется за совпадение (>=0);
-penalty - штраф, который начисляется за несовпадение (<=0);
-gapopen - штраф за первый gap;
-gapextend - штраф за каждый следующий gap.
-word_size - длина "слова", с которой выполняется алгоритм. Количество букв в рамке, по которой определяется совпадение или несовпадение (>=4).
При увеличении веса совпадения увеличивается число находок, но не сильно. При минимальной длине "слова" число находок больше, чем при стандартной.
Для анализа была выбрана пара, которая отсутствует при выравнивании со стандартными параметрами и присутствует при уменьшении длины слова. Это предполагаемая изолейциновая тРНК (получена из выравнивания с BSn5_t20972 tRNA-Ile) с координатами в геноме Bacillus licheniformis 11447 - 11521. Был получен файл с этой последовательностью:
seqret -sask bl_genome.fasta Read and write (return) sequences Begin at position [start]: 11447 End at position [end]: 11521 Reverse strand [N]: n output sequence(s) [ae017333.fasta]:
Далее этот фрагмент был выровнен с последовательностями тРНК Bacillus subtilis:
needle ae017333.fasta trna_bacsu.fasta Needleman-Wunsch global alignment of two sequences Gap opening penalty [10.0]: Gap extension penalty [0.5]: Output alignment [ae017333.needle]:
Далее показаны результаты выравнивания.
# Aligned_sequences: 2 # 1: AE017333 # 2: BSn5_t20972 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 82 # Identity: 60/82 (73.2%) # Similarity: 60/82 (73.2%) # Gaps: 12/82 (14.6%) # Score: 197.0 # # #======================================= AE017333 1 gggcct-tagctcagctgg-gagag----cgcctgctttgcacgcaggag 44 |||||| |||||||||||| .|||| ||||||.| |.||..||| BSn5_t20972 1 gggcctgtagctcagctggttagagcgcacgcctgat----aagcgtgag 46 AE017333 45 gtcagcggttcgatcccgct-aggctccacca 75 |||.|.|||||||..||.|| |||| |||||| BSn5_t20972 47 gtcggtggttcgagtccactcaggc-ccacca 77 #=======================================
#======================================= # # Aligned_sequences: 2 # 1: AE017333 # 2: BSn5_t20950 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 76 # Identity: 75/76 (98.7%) # Similarity: 75/76 (98.7%) # Gaps: 1/76 ( 1.3%) # Score: 375.0 # # #======================================= AE017333 1 -gggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag 49 ||||||||||||||||||||||||||||||||||||||||||||||||| BSn5_t20950 1 ggggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag 50 AE017333 50 cggttcgatcccgctaggctccacca 75 |||||||||||||||||||||||||| BSn5_t20950 51 cggttcgatcccgctaggctccacca 76 #=======================================
# Aligned_sequences: 2 # 1: AE017333 # 2: BSn5_t20968 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 76 # Identity: 75/76 (98.7%) # Similarity: 75/76 (98.7%) # Gaps: 1/76 ( 1.3%) # Score: 375.0 # # #======================================= AE017333 1 -gggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag 49 ||||||||||||||||||||||||||||||||||||||||||||||||| BSn5_t20968 1 ggggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag 50 AE017333 50 cggttcgatcccgctaggctccacca 75 |||||||||||||||||||||||||| BSn5_t20968 51 cggttcgatcccgctaggctccacca 76 #=======================================
# Aligned_sequences: 2 # 1: AE017333 # 2: BSn5_t20974 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 76 # Identity: 75/76 (98.7%) # Similarity: 75/76 (98.7%) # Gaps: 1/76 ( 1.3%) # Score: 375.0 # # #======================================= AE017333 1 -gggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag 49 ||||||||||||||||||||||||||||||||||||||||||||||||| BSn5_t20974 1 ggggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag 50 AE017333 50 cggttcgatcccgctaggctccacca 75 |||||||||||||||||||||||||| BSn5_t20974 51 cggttcgatcccgctaggctccacca 76 #=======================================
На приведенных выравниваниях видно, что фрагмент генома Bacillus licheniformis с координатами 11447 - 11521 выравнивается с изолейциновой тРНК хуже, чем с другими тремя. Другие три тРНК, которые дали хорошие выравнивания: BSn5_t20974, BSn5_t20968, BSn5_t20950 соответственно две аланиновые и одна глициновая. Как же такое могло получиться? Выравнивание обсуждаемого участка с изолейциновой тРНК было получено алгоритмом с минимальной длиной слова, а значит с увеличенной чувствительностью, однако в этом случае она была излишней. Гены, кодирующие разные тРНК очень похожи между собой, а значит могут выравниваться друг с другом. Поэтому для более точного определения предполагаемых тРНК нужно проводить выравнивание с более строгими параметрами и прибегать к другим методам исследования. Какая это тРНК на самом деле, аланиновая или глициновая, выяснить предложенными методами не получится, так как последовательности BSn5_t20968 и BSn5_t20950 совпадают. Хотя утверждается, что они кодируют разные тРНК. Могут ли две разные тРНК иметь одинаковые последовательности? Не должны, хотя бы потому, что разные аминокислоты кодируются разными кодонами. Возможно, что в данном организме одна из них не транслируется. Однако, стоит заметить, что изолейцин, аланин и глицин близки по свойствам, и ошибка в трансляции, скорее всего, не будет катастрофичной для работы белка.