Программа getorf. Поиск гомологов некодирующих последовательностей..


Задание 1. Работа с программой getorf пакета EMBOSS


Я создала с помощью SRS в своей директории файл с записью D89965 банка EMBL

Выполнила команду 

getorf D89965.entret -table 0 -minsize 30 -find 1

и получила набор трансляций всех открытых рамок данной последовательности:

    длиной более 30 нуклеотидов (-minsize 30),
    считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-table 0),
    при использовании стандартного кода (-table 0). 

Приведённой в поле FT кодирующей последовательности (CDS) в полученном файле соответсвтует 5 из 9 рамок считывания. Запись swiss-prot соответствует бактерии HSLV_ECOLI. Её последовательность соответствует 9 рамке.
Возможно во время эксперемента вместе с геномами клеток крысы отсеквенировали и последовательность генома кишечной палочки. И в embl запись внесли, как крысу.

Задание 2.Поиск гомологов некодирующих последовательностей программой BLASTN


С помощью команды
blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna.txt -outfmt 7 -evalue 0.01
Я получила файл-таблицу с выравниваниями lmtrna.txt
С помощью команды
grep -i '# Q' lmtrna.txt | sed -e 's/# Query: //' -e "s/ .*//" > name.txt
Я получила файл name.txt со списком имен входных последовательностей
С помощью скрипта получила файл с частатой встречаемости имен из файла name.txt в файле lmtrna.txt Экспортировала файлы с именами и частотой в Excel-файл trna.xls

Задание 3. Поиск гомологов при изменённых параметрах программы BLASTN

1)blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna.txt -outfmt 7 -evalue 0.01
2)blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna1.txt -gapopen 8
 -gapextend 6 -reward 5 -penalty -4 -outfmt 7 -evalue 0.01
3)blastn -query trna_bacsu.fasta -task blastn -db lm -out lmtrna2.txt -gapopen 8 
 -gapextend 6 -reward 5 -penalty -4 -outfmt 7 -evalue 0.01 -word_size 4
Результат
Все использованные файлы лежат в H:/Term3/blast/

Задание 4.Анализ результатов

При изменении весовой матрицы (-reward 5 и -penalty -4), увеличивается число гомологов в большинстве случаев.
При использовании минимального word_size для -penalty
-4 и -reward 5 число гомологов почти везде увеличивается.
Это можно объяснить тем, что чем короче слова образуются в ходе работы BLAST, тем большее число последовательностей
может быть подобрано. Увеличение также наблюдается и в том
случае, когда у нас не подобраны значения -penalty и -reward.
Я выбрала гомологичный участок 553945-554009, который находится
только при -reward 5 и -penalty -4.
В этом выравнивание совпадений меньше, чем не совпадение, и при стандартной матрице (-reward 2 и -penalty -3) вес выравнивания отрицателен, а при измененной (-reward 5 и -penalty -4) положителен.

# Aligned_sequences: 2
# 1: CP000557
# 2: BSn5_t21018
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 81
# Identity:      40/81 (49.4%)
# Similarity:    40/81 (49.4%)
# Gaps:          25/81 (30.9%)
# Score: 122.0
# 
#
#=======================================

CP000557           1 ------------cagctggttagagcagacggctcataaccgtccggtcg     38
                                 |||.|.|.|||..|.|..|||||||||||....|||||
BSn5_t21018        1 cgcggggtggagcagttcggtagctcggcgggctcataacccgaaggtcg     50

CP000557          39 taggttcgagtcct---------acaaggtc     60
                     .||||||.|.||||         ||.|    
BSn5_t21018       51 caggttcaaatcctgcccccgcaacca----     77

Процент совпадений не очень высок, однако есть достаточно хорошо совпадающие участки, что говорит о том, что в тРНК имеются консервативные регионы.

© Julia Chudakova