|
|
|
- Общие подсказки, а точнее советы
Перед началом работы проверьте свою квоту и,
если она превышена, просто перенесите энное количество файлов
в директорию E:\Public (а после окончания работы — обратно :).
Напоминаем, что диску P на kodomo-count соответствует директория
/home/export/samba/public
Программа seqret имеет опцию -sask,
позволяющую вырезать нужный участок из длинной последовательности.
Используйте подсказки к занятиям 1–4. В частности,
вспомните, что такое индексные файлы и как их получать.
Чем больше вы успеете, тем выше будет оценка. Но не надо торопиться
за счет снижения качества!
- Подсказки для варианта 2
- Как получить полный протеом кишечной палочки и геном в формате
FASTA?
Используйте возможности EMBOSS.
Команда
seqret sw:*_ABCDE
вытащит из банка SwissProt и поместит в указанный Вами последовательности
всех белков, имеющих ID, заканчивающееся на ABCDE. Поскольку кишечная палочка
— хорошо изученный организм, практически весь её протеом помещён в SwissProt.
Вспомните, как устроены ID записей SwissProt, описывающих белки кишечной
палочки!
Если на вход программе seqret дать последовательность в любом
формате (в том числе в формате EMBL), на выход она (по умолчанию)
выдаст ту же последовательность в fasta-формате.
- Как получить последовательности открытых рамок?
Программа getorf пакета EMBOSS предназначена для поиска
открытых рамок считывания в заданной нуклеотидной последовательности.
Запустите команду
getorf -help
и изучите, что означают значения, которые можно придавать параметрам
find, table и minsize. Продумайте, какими должны быть эти значения
в нашем случае.
Чтобы придать параметру программы заданное значение,
надо в командной строке после названия параметра (начинающегося с "–"),
поставить пробел, а затем — значение. Например, команда
getorf -minsize 1000
запустит программу getorf, придав параметру minsize значение 1000.
Параметров и их значений может быть сколько угодно (но, естественно,
каждый конкретный параметр должен встречаться не более одного раза).
Есть другой способ — запустите getorf с опцией -opt,
тогда программа сама спросит о значениях всех параметров.
- Как получить требуемую таблицу в Excel
Примерная последовательность действий:
- Создайте список ORF-ов вашего фрагмента и импортируйте его в Excel.
Список нетрудно получить
из выходного файла программы getorf посредством программы grep
(см. материалы по UNIX).
В этом списке "автоматом" будет присутствовать вся нужная информация,
кроме информации о сходных последовательностях из SwissProt. Придется
немного "пригладить" ее вид в Excel (в частности, не забывайте о возможности
контекстной замены <Ctrl+H> и о функции "Text to columns")
- Придумайте, как написать командную строку, запускающую BLAST с одной
пробной последовательностью по вашему банку, с порогом E-value<0,001.
Запустите (для пробы) хотя бы свой белок и откройте во viewer'е выходной файл.
- Придумайте, как с помощью программы grep посчитать число находок BLAST'а
(используя, естественно, его выходной файл). Проверьте свой алгоритм на полученном
файле.
- Теперь создайте конвейер blastall → grep, который сразу (без
создания выходного файла BLAST) выдает число находок.
Воспользуйтесь тем, что blastall выдает результат на stdout, если
имя выходного файла не указано.
- Теперь нужно создать скрипт, который выдал бы колонку чисел
количество находок для каждого ORF'а.
Скрипт это текстовый файл, который операционная система понимает
как последовательно выполняемые команды. Каждая команда в скрипте
приводится в виде отдельной строки. Для того, чтобы сделать ваш
скрипт исполняемым, надо изменить тип файла с помощью команды chmod.
Итак, надо создать текстовый файл, в котором
каждая строка представляла бы собой конвейер, аналогичный написанному в предыдущем
пункте, но с очередным ORF'ом в качестве входной последовательности.
Как подать на вход blastall произвольный ORF из файла?
Придется сначала создать вход для blastall программой seqret.
Если в fasta-файле some.fasta имеется последовательность с именем name
(напоминаем, что именем последовательности в fasta-формате считается
строка символов, заключенная между ">" и первым пробелом в строке описания),
то команда
seqret some.fasta:name stdout
выдаст на стандартный вывод только последовательность с нужным именем.
(Все программы EMBOSS могут выдать свой результат на stdout,
если задать "stdout" в качестве имени выходного файла).
Программа blastall берет пробную последовательность из stdin, если
опустить параметр -i.
Тем самым, двойной конвейер seqret → blastall → grep
(правильно написанный, разумеется) решает задачу.
В принципе, скрипт из таких конвейеров можно создать "руками"
(Copy-Paste + правка имен последовательностей), поскольку
ORF'ов не так много. Рекомендуется, однако, потренироваться в создании такого
рода скриптов в Excel. Создайте новую книгу и перенесите в нее столбец
список имен ORF'ов.
Внесите в ячейки левее и правее первого имени нужный текст (например, левее будет
что-то вроде
"seqret my.orf:", правее
"stdout | blastall " и т.д. Скопируйте
левые и правые ячейки на все строки. После этого
либо сохраните лист как текстовый файл,
а затем исправьте его в редакторе Far'а (Вам может понадобиться убрать
символ табуляции. Чтобы внести в окошко программы замены Far'а
символ табуляции, надо нажать сначала <Ctrl+Q>, а затем клавишу <Tab>),
либо прямо в Excel воспользуйтесь функцией "Concatenate" ("СЦЕПИТЬ"), а
затем скопируйте полученный столбец в текстовый файл.
Не забудьте сохранить скрипт в формате UNIX (<Shift+F2>).
- Осталось сделать ваш скрипт исполняемым и запустить его:
chmod +x my.script
./my.script
(естественно, вместо "my.script" надо поставить имя вашего файла). Убедившись,
что все работает правильно, надо перенаправить стандарный вывод
скрипта в файл, который затем импортировать в Excel.
Дальнейшее не должно вызвать затруднений.
|
|