Программа getorf. Поиск гомологов некодирующих последовательностей.Задание 1.Работа с программой getorf пакета EMBOSSКомандная строка : getorf -sequence D89965 -minsize 30 -find 1 -outseq d89965.orfОткрытая рамка считывания, соответствующая приведённой в поле FT кодирующей последовательности (CDS) : >D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQ STNPVQKYGA Открытая рамка считывания, соответствующая последовательности белка HSLV_ECOLI (из записи UniProt), но не всей ,а только 28-125 остаткам ( длина всего белка-176 остатков): >D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASL IITGNGDVVQPENDLIAIGS Последовательности совпадают почти полностью (если сделать выравнивание для всей последовательности Rattus norvegicus mRNA и белка HSLU_ECOLI, то выравнивание будет идентичным уже не 97, а 125 а.о.) , хотя они взяты из разных организмов:первая - из Rattus norvegicus , а вторая ( на которую ссылается данная запись EMBL) - из Escherichia coli . Весьма странно,что не весь белок попал в mRNA. Задание 2.Поиск гомологов некодирующих последовательностей программой BLASTNCкрипт для подсчета числа находок для каждой последовательности из файла blastn_sa_trna.Выдача в файле results.txt Отчетный файл Задание 3. Поиск гомологов при изменённых параметрах программы BLASTNПервое изменение параметров:blastn -task blastn -query trna_bacsu.fasta -db pp -outfmt 6 -out blastnout1 -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 Второе изменение параметров: blastn -task blastn -query trna_bacsu.fasta -db pp -outfmt 6 -out blastnout2 -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 Третье изменение параметров: blastn -task blastn -query trna_bacsu.fasta -db pp -outfmt 6 -out blastnout3 -evalue 0.01 -word_size 4 Отчетный файл Задание 4. Анализ результатовПри 'ослаблении' параметров поиска наблюдается тенденция к увеличению количества находокРассмотренная пара: BSn5_t21014-embl|AL766856|AL766856 Данная последовательность находится только при указании параметра -word_size 4 ( т.е. только при 2-ом и 3-ем поиске с изменением параметров). Причиной этого является то, что в этих последовательностях нет абсолютно идентичных "слов" длины 11. Выравнивание needle: #======================================= # # Aligned_sequences: 2 # 1: BSn5_t21014 # 2: AL766856 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 77 # Identity: 44/77 (57.1%) # Similarity: 44/77 (57.1%) # Gaps: 17/77 (22.1%) # Score: 156.0 # # #======================================= BSn5_t21014 1 gcgcccgtagctcaattggatagagcgttcgactacggatcaaaaggtta 50 ||.|||||||..||||||||||.||||.||.|..|.|.||.|||.. AL766856 1 ----ccatagctcagctggatagagcattcgccttctaagcgaacggtcg 46 BSn5_t21014 51 ggggttcgactcctctcgggcgcgcca 77 ..|||||||.|||| AL766856 47 caggttcgaatcct------------- 60 Как видно из полученного выравнивания, последовательности достаточно идентичны, что может быть объяснино достаточно постоянной структкрой тРНК. Но отличия все же имеются, т.к. тРНК взята из разных организмов.Интересно отметить , что в обоих случаях это RNA-Arg. В геноме Streptococcus agalactiae данный участок проаннотирован как RNA-Arg FT tRNA 100537..100610 FT /product="transfert RNA-Arg" |
© Алиса Муравьева. Все права защищены.