Перед началом работы проверьте свою квоту и, если она превышена, просто перенесите энное количество файлов в директорию E:\Public (а после окончания работы — обратно :).
Напоминаем, что диску P на kodomo-count соответствует директория
Программа seqret имеет опцию
Используйте подсказки к занятиям 1–4. В частности, вспомните, что такое индексные файлы и как их получать.
Чем больше вы успеете, тем выше будет оценка. Но не надо торопиться за счет снижения качества!
Используйте возможности EMBOSS. Команда
seqret sw:*_ABCDEвытащит из банка SwissProt и поместит в указанный Вами файл последовательности всех белков, имеющих ID, заканчивающееся на ABCDE. Поскольку кишечная палочка — хорошо изученный организм, практически весь её протеом помещён в SwissProt. Вспомните, как устроены ID записей SwissProt, описывающих белки кишечной палочки!
Если на вход программе seqret дать последовательность в любом формате (в том числе в формате EMBL), на выход она (по умолчанию) выдаст ту же последовательность в fasta-формате.
getorf -helpи изучите, что означают значения, которые можно придавать параметрам find, table и minsize. Продумайте, какими должны быть эти значения в нашем случае.
Чтобы придать параметру программы заданное значение, надо в командной строке после названия параметра (начинающегося с "–"), поставить пробел, а затем — значение. Например, команда
getorf -minsize 1000запустит программу getorf, придав параметру minsize значение 1000. Параметров и их значений может быть сколько угодно (но, естественно, каждый конкретный параметр должен встречаться не более одного раза).
Есть другой способ — запустите getorf с опцией
Итак, надо создать текстовый файл, в котором каждая строка представляла бы собой конвейер, аналогичный написанному в предыдущем пункте, но с очередным ORF'ом в качестве входной последовательности.
Как подать на вход blastall произвольный ORF из файла? Придется сначала создать вход для blastall программой seqret. Если в fasta-файле some.fasta имеется последовательность с именем name (напоминаем, что именем последовательности в fasta-формате считается строка символов, заключенная между ">" и первым пробелом в строке описания), то команда
seqret some.fasta:name stdoutвыдаст на стандартный вывод только последовательность с нужным именем. (Все программы EMBOSS могут выдать свой результат на stdout, если задать "stdout" в качестве имени выходного файла).
Программа blastall берет пробную последовательность из stdin, если опустить параметр -i. Тем самым, двойной конвейер seqret → blastall → grep (правильно написанный, разумеется) решает задачу.
В принципе, скрипт из таких конвейеров можно создать "руками"
(Copy-Paste + правка имен последовательностей), поскольку
ORF'ов не так много. Рекомендуется, однако, потренироваться в создании такого
рода скриптов в Excel. Создайте новую книгу и перенесите в нее столбец
список имен ORF'ов.
Внесите в ячейки левее и правее первого имени нужный текст (например, левее будет
что-то вроде
chmod +x my.script ./my.script(естественно, вместо "my.script" надо поставить имя вашего файла). Убедившись, что все работает правильно, надо перенаправить стандарный вывод скрипта в файл, который затем импортировать в Excel. Дальнейшее не должно вызвать затруднений.