Программа getorf. Поиск гомологов некодирующих последовательностей.

Задание 1.Работа с программой getorf пакета EMBOSS

Командная строка : getorf -sequence D89965 -minsize 30 -find 1 -outseq d89965.orf
Открытая рамка считывания, соответствующая приведённой в поле FT кодирующей последовательности (CDS) :
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQ
STNPVQKYGA

Открытая рамка считывания, соответствующая последовательности белка HSLV_ECOLI (из записи UniProt), но не всей ,а только 28-125 остаткам ( длина всего белка-176 остатков):
>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASL
IITGNGDVVQPENDLIAIGS
Последовательности совпадают почти полностью (если сделать выравнивание для всей последовательности Rattus norvegicus mRNA и белка HSLU_ECOLI, то выравнивание будет идентичным уже не 97, а 125 а.о.) , хотя они взяты из разных организмов:первая - из Rattus norvegicus , а вторая ( на которую ссылается данная запись EMBL) - из Escherichia coli . Весьма странно,что не весь белок попал в mRNA.

Задание 2.Поиск гомологов некодирующих последовательностей программой BLASTN

Cкрипт для подсчета числа находок для каждой последовательности из файла blastn_sa_trna.
Выдача в файле results.txt
Отчетный файл

Задание 3. Поиск гомологов при изменённых параметрах программы BLASTN

Первое изменение параметров:
blastn -task blastn -query trna_bacsu.fasta -db pp -outfmt 6 -out blastnout1 -evalue 0.01 -reward 5
-penalty -4 -gapopen 10 -gapextend 6
Второе изменение параметров:
blastn -task blastn -query trna_bacsu.fasta -db pp -outfmt 6 -out blastnout2 -evalue 0.01 -reward 5
-penalty -4 -gapopen 10 -gapextend 6 -word_size 4
Третье изменение параметров:
blastn -task blastn -query trna_bacsu.fasta -db pp -outfmt 6 -out blastnout3 -evalue 0.01 -word_size 4
Отчетный файл

Задание 4. Анализ результатов

При 'ослаблении' параметров поиска наблюдается тенденция к увеличению количества находок
Рассмотренная пара: BSn5_t21014-embl|AL766856|AL766856 Данная последовательность находится только при указании параметра -word_size 4 ( т.е. только при 2-ом и 3-ем поиске с изменением параметров). Причиной этого является то, что в этих последовательностях нет абсолютно идентичных "слов" длины 11.
Выравнивание needle:

#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t21014
# 2: AL766856
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      44/77 (57.1%)
# Similarity:    44/77 (57.1%)
# Gaps:          17/77 (22.1%)
# Score: 156.0
# 
#
#=======================================

BSn5_t21014        1 gcgcccgtagctcaattggatagagcgttcgactacggatcaaaaggtta     50
                         ||.|||||||..||||||||||.||||.||.|..|.|.||.|||..
AL766856           1 ----ccatagctcagctggatagagcattcgccttctaagcgaacggtcg     46

BSn5_t21014       51 ggggttcgactcctctcgggcgcgcca     77
                     ..|||||||.||||             
AL766856          47 caggttcgaatcct-------------     60

Как видно из полученного выравнивания, последовательности достаточно идентичны, что может быть объяснино достаточно постоянной структкрой тРНК.
Но отличия все же имеются, т.к. тРНК взята из разных организмов.Интересно отметить , что в обоих случаях это RNA-Arg.
В геноме Streptococcus agalactiae данный участок проаннотирован как RNA-Arg
FT   tRNA            100537..100610
FT                   /product="transfert RNA-Arg"


   

© Алиса Муравьева. Все права защищены.