|
||||||
Упражнения
Все записи UniProt, AC которых начинается на R10, были собраны в файл (рис. 1). Рис. 1. Команда seqret
Полученный в упражнении 1 файл я разделила на несколько (рис. 2). Рис. 2. Команда seqretsplit
Полученный в упражнении 1 файл я перевела из формата .fasta в формат .msf (результат). Рис. 3. Команда seqret
В последовательности одного из контигов сборки генома C. elegans нашла частоту тринуклеотидов и сравнила с ожидаемой частотой (опция -calcfreq). Результат, а команда на рисунке 4. Рис. 4. Команда compseq
Последовательность гена из практикума 6 транслирована в шести рамках - результат, команда на рисунке 5. Рис. 5. Команда transeq Сравните аннотации генов белков в геноме Streptococcus pneumoniae с трансляциями длинных открытых рамок считывания У бактерии Streptococcus pneumoniae всего одна хромосома, соответствующая ей запись RefSeq - NC_003098.1. Также я сохранила запись с аннотациями в формате GeneBank, но для работы я использовала последовательность генома fasta, так как запись gb содержит только аннотации. Для получения трансляций открытых рамок использовалась программа getorf пакета EMBOSS. Команда представлена на рисунке 6, а вот результат. Рис. 6. Команда getorf Затем нужно было получить список координат и ориентаций открытых рамок, для чего использовалась команда infoseq (рис. 7). Была получена таблица. Рис. 7. Команда infoseq Полученные данные также были сохранены в формате книги Excel. Далее требовалось составить другую таблицу - со списком аннотированных генов белков. Информацию для ее составления я брала не из файлов .ptt и .faa, как указано в задании, а кликнув на ссылку Gene на странице генома в NCBI и выбрав фильтр Protein coding. Затем две таблицы были склеены в одну, записи были сранжированы по координате начала. По таблице я вижу следующее:
|
||||||
|