Программа getorf. Поиск гомологов некодирующих последовательностей..
Задание 1. Работа с программой getorf пакета EMBOSS
Я создала с помощью SRS в своей директории файл с записью D89965 банка EMBL
Выполнила команду
getorf D89965.entret -table 0 -minsize 30 -find 1
и получила набор трансляций всех открытых рамок данной последовательности:
длиной более 30 нуклеотидов (-minsize 30),
считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-table 0),
при использовании стандартного кода (-table 0).
Приведённой в поле FT кодирующей последовательности (CDS) в
полученном файле соответсвтует 5 из 9 рамок считывания.
Запись swiss-prot соответствует бактерии HSLV_ECOLI.
Её последовательность соответствует 9 рамке.
Возможно во время эксперемента вместе с геномами клеток крысы
отсеквенировали и последовательность генома кишечной палочки.
И в embl запись внесли, как крысу.
Задание 2.Поиск гомологов некодирующих последовательностей программой BLASTN
С помощью команды
blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna.txt -outfmt 7 -evalue 0.01
Я получила файл-таблицу с выравниваниями lmtrna.txt
С помощью команды
grep -i '# Q' lmtrna.txt | sed -e 's/# Query: //' -e "s/ .*//" > name.txt
Я получила файл name.txt со списком имен входных последовательностей
С помощью скрипта
получила файл с частатой встречаемости имен из файла name.txt в файле lmtrna.txt
Экспортировала файлы с именами и частотой в Excel-файл trna.xls
Задание 3. Поиск гомологов при изменённых параметрах программы BLASTN
1)blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna.txt -outfmt 7 -evalue 0.01
2)blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna1.txt -gapopen 8
-gapextend 6 -reward 5 -penalty -4 -outfmt 7 -evalue 0.01
3)blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna2.txt -gapopen 8
-gapextend 6 -reward 5 -penalty -4 -outfmt 7 -evalue 0.01 -word_size 4
Результат
Все использованные файлы лежат в H:/Term3/blast/
Задание 4.Анализ результатов
При изменении весовой матрицы (-reward 5 и -penalty -4),
увеличивается число гомологов в большинстве случаев.
При использовании минимального word_size для -penalty
-4 и -reward 5 число гомологов почти везде увеличивается.
Это можно объяснить тем, что чем короче слова образуются
в ходе работы BLAST, тем большее число последовательностей
может быть подобрано. Увеличение также наблюдается и в том
случае, когда у нас не подобраны значения -penalty и -reward.
Я выбрала гомологичный участок 553945-554009, который находится
только при -reward 5 и -penalty -4.
В этом выравнивание совпадений меньше, чем не совпадение, и при стандартной матрице (-reward 2 и -penalty -3) вес
выравнивания отрицателен, а при измененной (-reward 5 и -penalty -4) положителен.
# Aligned_sequences: 2
# 1: CP000557
# 2: BSn5_t21018
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 81
# Identity: 40/81 (49.4%)
# Similarity: 40/81 (49.4%)
# Gaps: 25/81 (30.9%)
# Score: 122.0
#
#
#=======================================
CP000557 1 ------------cagctggttagagcagacggctcataaccgtccggtcg 38
|||.|.|.|||..|.|..|||||||||||....|||||
BSn5_t21018 1 cgcggggtggagcagttcggtagctcggcgggctcataacccgaaggtcg 50
CP000557 39 taggttcgagtcct---------acaaggtc 60
.||||||.|.|||| ||.|
BSn5_t21018 51 caggttcaaatcctgcccccgcaacca---- 77
Процент совпадений не очень высок, однако есть достаточно
хорошо совпадающие участки, что говорит о том, что в тРНК
имеются консервативные регионы.
© Julia Chudakova