Навигация по сайту: |
EMBOSS и локальный BLASTI. Задания по EMBOSS1. Несколько файлов в формате fasta собрать в единый файлКоманда: seqret '*'.fasta combined.fasta 2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
Команда: seqretsplit combined.fasta -auto 3. Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.Входные файлы: coords.txt, sequence.gb. Команда: seqret @coords.txt -out CDS.fasta 4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.Команда: transeq -table 0 CDS.fasta prot.fasta 5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательностиКоманда: getorf -minsize 50 seq.fasta seq.orf 10. Перемешать буквы в данной нуклеотидной последовательности.Команда: shuffleseq seq.fasta seq.shuffle.fasta 11. Создать три случайных нуклеотидных последовательностей длины 100Команда: makeseqnuc -amount 3 -out stdout -auto | seqretsplit -filter Выходные файлы: Раз, Два, Три. 12. Найти частоты кодонов в данных кодирующих последовательностяхКоманда: cusp CDS.fasta CDS_freqs.cusp 14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей)Команда: degapseq alignment.fasta alignment_degapped.fasta 15. Перевести символы конца строки из формата Windows в формат UnixКоманда: noreturn -system unix windows.txt unix.txt II. Python скриптЗадание: 4. По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product). Описание: С помощью программы EMBOSS extractfeat из файла gb/embl, находящегося в той же папке, что и скрипт, извлекаются все CDS в fasta-формате, при этом к последовательностям на комплементарной цепи автоматически применяется reverse complement. Итоговый файл имеет расширение ".cds". Названия последовательностей подвергаются редактированию: опцией -describe и -featinname к ним добавляется небольшое описание из поля /product соответствующего белка. Если при вызове скрипта указано -j, то все CDS одного белка будут сшиты в одну(актуально для эукариот с их экзонами). |
© Пушкарев Сергей, 2018