Материалы к зачетному заданию

 
     

 

  1. Общие подсказки, а точнее советы
  2. Перед началом работы проверьте свою квоту и, если она превышена, просто перенесите энное количество файлов в директорию E:\Public (а после окончания работы — обратно :).

    Напоминаем, что диску P на kodomo-count соответствует директория /home/export/samba/public

    Программа seqret имеет опцию -sask, позволяющую вырезать нужный участок из длинной последовательности.

    Используйте подсказки к занятиям 1–4. В частности, вспомните, что такое индексные файлы и как их получать.

    Чем больше вы успеете, тем выше будет оценка. Но не надо торопиться за счет снижения качества!

  3. Подсказки для варианта 2
    1. Как получить полный протеом кишечной палочки и геном в формате FASTA?
    2. Используйте возможности EMBOSS. Команда

       seqret sw:*_ABCDE
      
      вытащит из банка SwissProt и поместит в указанный Вами последовательности всех белков, имеющих ID, заканчивающееся на ABCDE. Поскольку кишечная палочка — хорошо изученный организм, практически весь её протеом помещён в SwissProt. Вспомните, как устроены ID записей SwissProt, описывающих белки кишечной палочки!

      Если на вход программе seqret дать последовательность в любом формате (в том числе в формате EMBL), на выход она (по умолчанию) выдаст ту же последовательность в fasta-формате.

    3. Как получить последовательности открытых рамок?
    4. Программа getorf пакета EMBOSS предназначена для поиска открытых рамок считывания в заданной нуклеотидной последовательности. Запустите команду
       getorf -help
      
      и изучите, что означают значения, которые можно придавать параметрам find, table и minsize. Продумайте, какими должны быть эти значения в нашем случае.

      Чтобы придать параметру программы заданное значение, надо в командной строке после названия параметра (начинающегося с "–"), поставить пробел, а затем — значение. Например, команда

       getorf -minsize 1000
      
      запустит программу getorf, придав параметру minsize значение 1000. Параметров и их значений может быть сколько угодно (но, естественно, каждый конкретный параметр должен встречаться не более одного раза).

      Есть другой способ — запустите getorf с опцией -opt, тогда программа сама спросит о значениях всех параметров.

    5. Как получить требуемую таблицу в Excel
    6. Примерная последовательность действий:
      • Создайте список ORF-ов вашего фрагмента и импортируйте его в Excel. Список нетрудно получить из выходного файла программы getorf посредством программы grep (см. материалы по UNIX). В этом списке "автоматом" будет присутствовать вся нужная информация, кроме информации о сходных последовательностях из SwissProt. Придется немного "пригладить" ее вид в Excel (в частности, не забывайте о возможности контекстной замены <Ctrl+H> и о функции "Text to columns")
      • Придумайте, как написать командную строку, запускающую BLAST с одной пробной последовательностью по вашему банку, с порогом E-value<0,001. Запустите (для пробы) хотя бы свой белок и откройте во viewer'е выходной файл.
      • Придумайте, как с помощью программы grep посчитать число находок BLAST'а (используя, естественно, его выходной файл). Проверьте свой алгоритм на полученном файле.
      • Теперь создайте конвейер blastall → grep, который сразу (без создания выходного файла BLAST) выдает число находок. Воспользуйтесь тем, что blastall выдает результат на stdout, если имя выходного файла не указано.
      • Теперь нужно создать скрипт, который выдал бы колонку чисел — количество находок для каждого ORF'а. Скрипт — это текстовый файл, который операционная система понимает как последовательно выполняемые команды. Каждая команда в скрипте приводится в виде отдельной строки. Для того, чтобы сделать ваш скрипт исполняемым, надо изменить тип файла с помощью команды chmod.

        Итак, надо создать текстовый файл, в котором каждая строка представляла бы собой конвейер, аналогичный написанному в предыдущем пункте, но с очередным ORF'ом в качестве входной последовательности.

        Как подать на вход blastall произвольный ORF из файла? Придется сначала создать вход для blastall программой seqret. Если в fasta-файле some.fasta имеется последовательность с именем name (напоминаем, что именем последовательности в fasta-формате считается строка символов, заключенная между ">" и первым пробелом в строке описания), то команда

         seqret some.fasta:name stdout 
        
        выдаст на стандартный вывод только последовательность с нужным именем. (Все программы EMBOSS могут выдать свой результат на stdout, если задать "stdout" в качестве имени выходного файла).

        Программа blastall берет пробную последовательность из stdin, если опустить параметр -i. Тем самым, двойной конвейер seqret → blastall → grep (правильно написанный, разумеется) решает задачу.

        В принципе, скрипт из таких конвейеров можно создать "руками" (Copy-Paste + правка имен последовательностей), поскольку ORF'ов не так много. Рекомендуется, однако, потренироваться в создании такого рода скриптов в Excel. Создайте новую книгу и перенесите в нее столбец — список имен ORF'ов. Внесите в ячейки левее и правее первого имени нужный текст (например, левее будет что-то вроде "seqret my.orf:", правее "stdout | blastall " и т.д. Скопируйте левые и правые ячейки на все строки. После этого либо сохраните лист как текстовый файл, а затем исправьте его в редакторе Far'а (Вам может понадобиться убрать символ табуляции. Чтобы внести в окошко программы замены Far'а символ табуляции, надо нажать сначала <Ctrl+Q>, а затем клавишу <Tab>), либо прямо в Excel воспользуйтесь функцией "Concatenate" ("СЦЕПИТЬ"), а затем скопируйте полученный столбец в текстовый файл. Не забудьте сохранить скрипт в формате UNIX (<Shift+F2>).
         

      • Осталось сделать ваш скрипт исполняемым и запустить его:
        chmod +x my.script
        ./my.script
        
        (естественно, вместо "my.script" надо поставить имя вашего файла). Убедившись, что все работает правильно, надо перенаправить стандарный вывод скрипта в файл, который затем импортировать в Excel. Дальнейшее не должно вызвать затруднений.