Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2017

Практикум 6: EMBOSS и протеомы

Формат отчёта: html-страница со ссылкой со страницы семестра.

Срок выполнения без потерь балов - 26 марта, крайний срок - 2 апреля. Упражнения по EMBOSS и sed тренировочные, их нужно проделать, чтобы на коллоквиуме 3 апреля быстро выполнить аналогичное задание. EMBOSS установлен на kodomo.

Задание 1. Частоты остатков в протеомах

Настоятельно рекомендую читать указания.

  1. Скачайте из UniProt два полных протеома в fasta-формате: Escherichia coli (штамма K12) и бактерии или археи, из которой взят белок, описанный вами в практикуме 5.

  2. Посчитайте число последовательностей и число аминокислот (не число разных, а общее число) в каждом протеоме.
  3. Программой wordcount посчитайте частоты (в штуках) букв (аминокислотных остатков) в протеомах.
  4. Вычислите процент каждой буквы в каждом протеоме. Создайте единую таблицу процентов букв в обоих организмах, упорядоченную по убыванию процента в вашем организме. Посчитайте разность процентов для каждой буквы.

Отчетная html-страница должна содержать:

  1. идентификаторы протеомов, количество последовательностей и аминокислот в них;
  2. html-таблицу из четырёх столбцов (таблица должна иметь заголовки столбцов!): остаток (однобуквенный код), процент данного остатка в протеоме вашего организма, процент в протеоме E. coli K12, разность процентов;

  3. комментарий к таблице с описанием основных различий протеомов: одинаковые ли остатки входят в три самых частых и в три самых редких (среди 20 стандартных, селеноцистеин U игнорируйте), для какого остатка разница самая большая в пользу E. coli и для какого — в пользу вашей бактерии/археи.

Задание 2* (необязательное)

Изучите программу compseq. Напишите небольшую "справку для пользователя" о разнице между программами wordcount и compseq. Какую программу вы бы сами выбрали для выполнения работы, аналогичной заданию 1, и почему?

Упражнения по EMBOSS

Настоятельно рекомендую читать указания.

  1. Программой infoseq:
    • выведите всю информацию о последовательностях одного fasta-файла (например, одного из протеомов, скачанных ранее);
    • выведите только колонки "имя", "код доступа (AC)", "длина" и "описание";
    • перенаправьте выдачу в программу less;
    • запишите выдачу в файл;
    • запишите в файл только те строки, в которых есть выражение "PE=1";
    • посчитайте число строк с PE=1 без записи в файл.
  2. Запишите в файл help какой-нибудь программы EMBOSS (т.е., то. что выдаёт программа, будучи запущена с опцией -help).

  3. Извлеките из присоединённого банка Swiss-Prot полные записи (т.е., в формате UniProt) всех белков, чей ID начинается на "HXA" и кончается "HUMAN".

    • C помощью grep посмотрите содержимое полей ID, DE, FT этих белков.
  4. Создайте файл с последовательностью ДНК-связываюшего домена белка Hox-A1 человека в fasta-формате.
    • С помощью одной командной строки (конвейера seqret и descseq) создайте файл с последовательностью того же домена, но с описанием, изменённым на "Homeobox Hox-A1".
  5. С помощью конвейера entret → grep → less просмотрите особенности (поле FT) белка с ID "POLG_FMDVA" банка Swiss-Prot.
    • Создайте конвейер, который записывает в файл информацию об особенностях этого белка с ключом CHAIN. "Ключ" (Feature Key) – это слово, идущее после букв FT, перед координатами особенности.

Упражнения по sed

  1. Удалить из файла последнюю строку.
  2. Удалить из файла строки 2, 5 и 12.
  3. Вывести только 2, 5 и 12 строки файла.
  4. Вывести только четные строки файла (второй группе не рассказал про такой тип адреса, можете почитать help, на контрольной/коллоквиуме заданий на этот тип адреса не будет).
  5. Заменить все вхождения слова "first" на слово "second".
  6. Добавить после всех цифр в файле точку ("Text 123 text 1 and 19" -> "Text 1.2.3. text 1. and 1.9.").

  7. Добавить после всех чисел в файле точку ("Text 123 text 1 and 19" -> "Text 123. text 1. and 19.").

  8. Отформатировать заголовки fasta файла, оставив, например, только идентификатор последовательности.
  9. *Заменить в файле все русские буквы аВеКМНорсТух на английские aBeKMHopcTyx. Очень интересно, как Вы будете проверять результат)