entret embl:D89965 -auto
Выполните команду
tfm getorfдля D89965 так, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов (открытая рамка - последовательность триплетов, начинающаяся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода).
getorf -minsize 30 -find 1 -table 11 Finds and extracts open reading frames (ORFs) Input nucleotide sequence(s): d89965.entret protein output sequence(s) [d89965.orf]: d89965.orfПятая открытая рамка соответствует приведённой в записи CDS. 13 рамка соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL.
Запустим программу blastn, указав в качестве последовательностей для поиска
файл trna_ecoli.fasta, в качестве банка — геном бактерии Pasteurella multocida с
функцией
С помощью команды:
grep valV genome.txt -cмы узнаем количество строк, включающих информацию для белка valV.
Создадим в файле Excel колонку из названий входных последовательностей. Затем создадим скрипт, в результате работы которого мы узнаем количество находок для каждой такой последовательности.
Повторим поиск, на этот раз указав порог на E-value, равный 0.001,добавив таблицу столбец.
Результат работы : Excel.
Командные строки:
megablast -d index -i trna_ecoli.fasta -o mblast.txt -m 8 megablast -d index -i trna_ecoli.fasta -o mblas.txt -m 8 -N 1 -W 11 -t 16Результаты помещены в соотвествующие столбцы в файле Excel.
Вырежем участок тРНК E.coli- selC в отдельный файл командой
Gap_penalty: 10.0 Extend_penalty: 0.5 Length: 95 Identity: 61/95 (64.2%) Similarity: 61/95 (64.2%) Gaps: 22/95 (23.2%) Score: 257.0
Данный участок проаннотирован - селеноцистеин тРНК. Эти выравнивания совпадают частично, потому что BLASTn не выравнивает концы, но в тоже время довольно высокие проценты в связи с значимостью тРНК в процессах в клетках.