Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2017

Указания к практикуму 6

Задание 1.

Скачивание протеомов.

Подсчет последовательностей и аминокислот

Составление таблицы

Для этих целей можно использовать Excel (или аналог) или Python. В случае Excel необходимо прикрепить к отчету xls(x) файл, в котором можно разобраться, даже не зная задание; в случае Python – скрипт и команду его запуска.

Упражнения EMBOSS

  1. Читайте help и пробуйте разные варианты, пока не получится в точности то, что нужно.

  2. Программы EMBOSS выдают свой help на stderr.
  3. Программа entret служит для получения полных записей из банков, программа seqret — для получения последовательностей в заданных форматах (по умолчанию fasta). В качестве адреса последовательности (USA) годится выражение вида "банк:ID" или "банк:AC". На kodomo банк Swiss-Prot имеет обозначение sw (например, sw:p0a7c2 — это корректный адрес). Вместо неизвестных букв в ID или AC можно ставить звёздочку "*". Если звёздочки задают больше одной последовательности, то seqret или entret положит их все в один файл. Внимание: имя банка (или файла) и название последовательности в адресе разделяет двоеточие, не точка с запятой!

  4. Чтобы вырезать кусок последовательности (например, с началом в 202 остатке и концом в 504), можно поступить одним из трёх способов (крайне рекомендую 1 способ):
    • включить координаты прямо в USA, например sw:polg_fmdva[202:504]

    • добавить в командную строку параметры -sbeg и -send, например seqret sw:polg_fmdva -sbeg 202 -send 504

    • добавить в командную строку seqret опцию -sask, тогда программа сама спросит про начало и конец.

  5. Практически все программы EMBOSS, в том числе seqret, выдают результат на стандартный вывод вместо файла, если в качестве имени выходного файла указать "stdout".
  6. Программы EMBOSS, будучи запущены с опцией -filter, принимают в качестве входа стандартный вход и выдают результат на стандартный вывод. Это удобно для конвейеров, например для переименования участков последовательностей, вырезанных seqret'ом из полных последовательностей, программой descseq. Подробнее про EMBOSS читайте на сайте http://emboss.sourceforge.net/docs/ .

  7. При использовании в grep выражений, содержащих пробелы (и вообще что-либо, кроме букв и цифр), не забывайте про кавычки! Чтобы выделить FT с данным ключом, полезно посчитать число пробелов между буквами FT и ключевым словом и всё это выражение в кавычках скормить grep'у.

Упражнения по sed

   1 sed -E -e "$d" filename

не удаляет последнюю строчку файла. Чтобы избежать непонимания со стороны bash, нужно экранировать $ в командах sed с помощью обратного слэша:

   1 sed -E -e "\$d" filename