Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2022

Задание 1

  1. Выбору подходящего домена поможет

[ список доменов на апр.2023 ]

Скачать обновлённый список доменов Pfam, с полной информацией, доступной на странице каждого домена, мне не удалось. В Interpro (который проглотил Pfam) пока не нашёл такой возможности(((

Нужная информация о домене на апрель 2024: число белков с доменом, из них из swissprot, из них с известной 3D, выравнивание SEED, доступны, на странице домена.

  1. В рамках Interpro БД Pfam является одной из memberDB. В ней и искать. Надёжнее по коду домена PF..... Можно указать этот код и в ссылке http://pfam-legacy.xfam.org/. Информацию и возможности скачивания белков с доменом доступны через меню слева. В Alignments возможно доступно для скачивания только выравнивание SEED. Расширение скачанного файла надо сразу сменить на .msf

  2. Выровнять последовательности. Посмотрите на выравнивание чтобы оценить его качество.Запишите сколько последовательностей. Удалить идентичные или очень похожие последовательности. Edit => remove redundancy => 100% или меньше, например, 90%. Запишите сколько последовательностей осталось.Color Clustal. Above identity threshold 100%! И постепенно снижать, чтобы проявились мотивы. Изолированные консервативные колонки пока не рассматриваем – могут быть результатом подгонки алгоритма выравнивания. Вплотную или рядом расположенные консервативные позиции считаем мотивом.Оцените “на глаз” информационное содержание (IC) – насколько далек от случайного совпадения найденный мотив.

  3. В Prosite используйте Scan Prosite => опция 2; output format FASTA; обязательно Retrieve complete sequences: V . Выровняйте последовательности (web services => alignment; выбираете программу; я обычно выбираю mafft). Так как скачаны полные последовательности, то нет гарантии, что домены выровняются правильно. Проверьте это найдя все мотивы с помощью паттерна в Jalview. Выровнялись ли они?

  4. Поиск доменов во входных последовательностях есть в Interpro.

Задание 2

Задание 3

Задание 4

Ориентировочный размер выборки полных последовательностей: 100-500

  1. Скачайте выборку полных последовательностей, содержащих выбранный вами домен, отличную от выборки seed. Варианты такие
    1. Белки из SwissProt: proteins => reviewed; fasta

    2. Белки с определённой доменной архитектурой. Обращайте внимание на число последовательностей с данной архитектурой, длину представителя - ниже. Это хороший выбор, так как есть шанс построить выравнивание для проверки результат - белки гомологичны по по всем доменам.
    3. Белки из узкого таксона: Taxonomy; выбирайте таксон. Следите за числом последовательностей справа, скачиваются щелчком по этому числу. Тоже есть шансы на выравнивание полных последовательностей хотя бы выбранных доменов
    4. Белки с известной 3D, если их число приемлемо. Красиво - можно посмотреть их положение в структуре.
  2. MEME и FIMO
    1. Из выборки отберите 50-100 последовательностей для поиска мотивов, но не все. Если удалось построить выравнивание выборки, то редуцировать её можно а счёт оставления одной последовательности из кластера высокосходных. Jalview => Edit => remove redundancy. Сначала порог 100% identity, можно понижать понемножку и смотреть сколько последовательностей остаётся.

    2. MEME на кодомо. Пример командной строки

meme SW-pf00145-reduced-40.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4 

а) фаста файл со входными последовательностями
Просто первый аргумент у обеих программ.

б) имя директории для результатов
meme/ememe  -o results

в) Zero or One Occurence per sequence
meme/ememe -mod zoops (можно не указывать, это default)
meme/ememe -mod anr   (Any Number of Repetitions)
meme/ememe -mod oops  (One Occurence per sequence)

г) Number of output Motifs 4
meme/ememe -nmotifs 4 (default 1)

д) Minwidth 6
meme/ememe -minw 6 (default 8)

е) maxmotifwidth 10
meme/ememe -maxw 10 (default 50)

fimo  results/meme.txt SW-pf00145-111.fasta

На kodomo установлена консольная версия FIMO. Запустить её можно с помощью команды fimo [options] <motif> <sequences>. Как и в случае meme, к программе отсутствует документация в системах man и info. Более того, эта программа не понимает даже опций -h, --help, -? и т.д. Единственный способ получить по ней хоть какую-то справку в командной строке – запустить её без параметров. Подробное описание всех опций доступно по адресу http://meme-suite.org/doc/fimo.html?man_type=cmd .

Консольная версия FIMO понимает только один формат файла с мотивами и PWM. Этот формат подробно описан здесь: http://meme-suite.org/doc/meme-format.html . Утилита meme выдает результаты на STDOUT именно в этом формате, если указана опция -text. Печатается значительно больше информации, чем необходимо для описания мотивов, но эта информация не мешает программе fimo. Поэтому выдачу meme -text можно целиком передавать в качестве первого аргумента при вызове fimo. Если хочется запустить поиск не всех мотивов, а только какого-то одного, обратите внимание на опцию -motif.

Обратите внимание, при вызове meme и fimo опции необходимо указывать перед позиционными аргументами, иначе программы выдадут ошибку.

— ИР

2022/4/hints10 (последним исправлял пользователь aba 2024-04-26 15:47:28)