Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Указания к практикуму 7

Задание 1.

В этот раз решил не делать заготовку, вам они, судя по всему, не сильно помогают. Но правила оформления остаются такими же: на таблицу обязательно должна быть ссылка в тексте, нужно краткое введение и заключение (наблюдения, идеи, впечатления, etc).

Скачивание протеомов.

Подсчет последовательностей и аминокислот

Составление таблицы

Для этих целей желательно написать скрипт на Python. Можно использовать Excel или аналоги, но за это буду снижать баллы. В случае Python необходимо прикрепить к отчету скрипт и команду его запуска. Таблица должна получаться либо в виде текстового файла с <tab> в качестве разделителей (.tsv или .tab), либо сразу в виде html-таблицы, готовой для вставки в отчет. В первом случае Вам придется еще как-то сделать из TSV таблицу HTML. Очень не советую делать это вручную – очень муторно и легко можно ошибиться. Погуглите, существует куча онлайн-конвертеров. В случае Excel обязательно прикрепите файл с результатом. Как из таблицы Excel сделать таблицу HTML придумывайте сами (но указать в отчете выбранный способ нужно обязательно).

Упражнения по EMBOSS.

  1. Читайте help и пробуйте разные варианты, пока не получится в точности то, что нужно.

  2. Программы EMBOSS выдают свой help на STDERR.
  3. Программа entret служит для получения полных записей из банков, программа seqret — для получения последовательностей в заданных форматах (по умолчанию fasta). В качестве адреса последовательности (USA) годится выражение вида "банк:ID" или "банк:AC". На kodomo банк Swiss-Prot имеет обозначение sw (например, sw:p0a7c2 — это корректный адрес). Вместо неизвестных букв в ID или AC можно ставить звёздочку "*". Если звёздочки задают больше одной последовательности, то seqret или entret положит их все в один файл. Внимание: имя банка (или файла) и название последовательности в адресе разделяет двоеточие, не точка с запятой!

  4. Чтобы вырезать кусок последовательности (например, с началом в 202 остатке и концом в 504), можно поступить одним из трёх способов (крайне рекомендую 1 способ):
    • включить координаты прямо в USA, например sw:polg_fmdva[202:504]

    • добавить в командную строку параметры -sbeg и -send, например seqret sw:polg_fmdva -sbeg 202 -send 504

    • добавить в командную строку seqret опцию -sask, тогда программа сама спросит про начало и конец.

  5. Практически все программы EMBOSS, в том числе seqret, выдают результат на стандартный вывод вместо файла, если в качестве имени выходного файла указать "stdout".
  6. Программы EMBOSS, будучи запущены с опцией -filter, принимают в качестве входа стандартный вход и выдают результат на стандартный вывод. Это удобно для конвейеров, например для переименования участков последовательностей, вырезанных seqret'ом из полных последовательностей, программой descseq. Подробнее про EMBOSS читайте на сайте http://emboss.sourceforge.net/docs/ .

  7. При использовании в grep выражений, содержащих пробелы (и вообще что-либо, кроме букв и цифр), не забывайте про кавычки! Чтобы выделить FT с данным ключом, полезно посчитать число пробелов между буквами FT и ключевым словом и всё это выражение в кавычках скормить grep'у.

Упражнения по grep.

У программы grep есть полезные опции, которые позволяют отключить зависимость от регистра, инвертировать (логически) условие, искать несколько разных паттернов. Хорошо, если Вы освоите эти опции. Кроме того, иногда интуитивно проще использовать конвейер из нескольких grep с разными условиями.