Help to practice 5 (Credit1)

Материалы к зачетному заданию

Общие подсказки, а точнее советы

Перед началом работы проверьте свою квоту и, если она превышена, просто перенесите энное количество файлов в директорию E:\Public (а после окончания работы — обратно :).

Напоминаем, что диску P на kodomo-count соответствует директория /home/export/samba/public

Программа seqret имеет опцию -sask, позволяющую вырезать нужный участок из длинной последовательности.

Используйте подсказки к занятиям 1–4. В частности, вспомните, что такое индексные файлы и как их получать.

Чем больше вы успеете, тем выше будет оценка. Но не надо торопиться за счет снижения качества!

Подсказки для варианта 2

Как получить полный протеом кишечной палочки и геном в формате FASTA?

Используйте возможности EMBOSS. Команда

 seqret sw:*_ABCDE

Если на вход программе seqret дать последовательность в любом формате (в том числе в формате EMBL), на выход она (по умолчанию) выдаст ту же последовательность в fasta-формате.

Как получить последовательности открытых рамок?

getorf

 getorf -help

Чтобы придать параметру программы заданное значение, надо в командной строке после названия параметра (начинающегося с "–"), поставить пробел, а затем — значение. Например, команда

 getorf -minsize 1000

Есть другой способ — запустите getorf с опцией -opt, тогда программа сама спросит о значениях всех параметров.

Как получить требуемую таблицу в Excel

Создайте список ORF-ов вашего фрагмента и импортируйте его в Excel. Список нетрудно получить из выходного файла программы getorf посредством программы grep (см. материалы по UNIX). В этом списке "автоматом" будет присутствовать вся нужная информация, кроме информации о сходных последовательностях из SwissProt. Придется немного "пригладить" ее вид в Excel (в частности, не забывайте о возможности контекстной замены <Ctrl+H> и о функции "Text to columns")
Придумайте, как написать командную строку, запускающую BLAST с одной пробной последовательностью по вашему банку, с порогом E-value<0,001. Запустите (для пробы) хотя бы свой белок и откройте во viewer'е выходной файл.
Придумайте, как с помощью программы grep посчитать число находок BLAST'а (используя, естественно, его выходной файл). Проверьте свой алгоритм на полученном файле.
Теперь создайте конвейер blastall → grep, который сразу (без создания выходного файла BLAST) выдает число находок. Воспользуйтесь тем, что blastall выдает результат на stdout, если имя выходного файла не указано.
Теперь нужно создать скрипт, который выдал бы колонку чисел — количество находок для каждого ORF'а. Скрипт — это текстовый файл, который операционная система понимает как последовательно выполняемые команды. Каждая команда в скрипте приводится в виде отдельной строки. Для того, чтобы сделать ваш скрипт исполняемым, надо изменить тип файла с помощью команды chmod.
Итак, надо создать текстовый файл, в котором каждая строка представляла бы собой конвейер, аналогичный написанному в предыдущем пункте, но с очередным ORF'ом в качестве входной последовательности.
Как подать на вход blastall произвольный ORF из файла? Придется сначала создать вход для blastall программой seqret. Если в fasta-файле some.fasta имеется последовательность с именем name (напоминаем, что именем последовательности в fasta-формате считается строка символов, заключенная между ">" и первым пробелом в строке описания), то команда
```
 seqret some.fasta:name stdout 
```
выдаст на стандартный вывод только последовательность с нужным именем. (Все программы EMBOSS могут выдать свой результат на stdout, если задать "stdout" в качестве имени выходного файла).
Программа blastall берет пробную последовательность из stdin, если опустить параметр -i. Тем самым, двойной конвейер seqret → blastall → grep (правильно написанный, разумеется) решает задачу.
В принципе, скрипт из таких конвейеров можно создать "руками" (Copy-Paste + правка имен последовательностей), поскольку ORF'ов не так много. Рекомендуется, однако, потренироваться в создании такого рода скриптов в Excel. Создайте новую книгу и перенесите в нее столбец — список имен ORF'ов. Внесите в ячейки левее и правее первого имени нужный текст (например, левее будет что-то вроде "seqret my.orf:", правее "stdout | blastall " и т.д. Скопируйте левые и правые ячейки на все строки. После этого либо сохраните лист как текстовый файл, а затем исправьте его в редакторе Far'а (Вам может понадобиться убрать символ табуляции. Чтобы внести в окошко программы замены Far'а символ табуляции, надо нажать сначала <Ctrl+Q>, а затем клавишу <Tab>), либо прямо в Excel воспользуйтесь функцией "Concatenate" ("СЦЕПИТЬ"), а затем скопируйте полученный столбец в текстовый файл. Не забудьте сохранить скрипт в формате UNIX (<Shift+F2>).
Осталось сделать ваш скрипт исполняемым и запустить его:
```
chmod +x my.script
./my.script
```
(естественно, вместо "my.script" надо поставить имя вашего файла). Убедившись, что все работает правильно, надо перенаправить стандарный вывод скрипта в файл, который затем импортировать в Excel. Дальнейшее не должно вызвать затруднений.