Подсказки к практикуму 2

 
     

 

  1. Сравнение разных записей в EMBL
  2. Зайдите на kodomo-count, перейдите в поддиректорию Practice2 и получите файл с записью SwissProt, выполнив
     entret sw:X00000 -auto
    
    где X00000 — AC или ID вашего белка. В записи SwissProt найдите поле DR, в нем среди прочего содержится информация о соответствующих записях EMBL (AC записи — непосредственно после названия банка).

    Войдите в систему поиска SRS (http://srs.ebi.ac.uk/). На страничке "Library page" выберите поиск по БД EMBL.

    Поиск ведите по полю "Accession number", пользуясь логическим оператором "ИЛИ".

    Создайте один запрос, позволяющий сразу получить всю нужную информацию и только ее. Для этого в окошке "Choose 1 or more fields" (с помощью мыши и клавиши <Ctrl>) выберите поля: ID, Molecule, Data class, Division, Sequence Length, Entry Creation Date. Description. Сохраните результаты поиска в виде таблицы.

    Узнать смысл сокращенного названия раздела и класса данных можно в описании банка EMBL: http://www.ebi.ac.uk/embl/ → user manual
     

  3. Сравнение описаний гена Escherichia coli в двух разных записях EMBL
  4. Чтобы получить файл с записью EMBL, выполните
     entret embl:A0000000 -auto
    (где A0000000 — опять-таки или AC, или ID). Получение записи EMBL может занять несколько секунд. Ищите информацию о своем белке в поле FT, ключ CDS (если запись большая, имеет смысл запустить автоматический поиск по AC белка).

    Описание терминов в таблице особенностей (и ключей, и спецификаторов) можно посмотреть здесь: http://www.ebi.ac.uk/embl/WebFeat/.

    Чтобы извлечь из файла X.entret какой-либо участок последовательности, надо выполнить команду

     seqret X.entret -sask
    
    Благодаря опции -sask Вам будут заданы три вопроса: с какого нуклеотида начинать, на каком заканчивать и нужно ли заменять последовательность комплементарной. Ответьте на вопросы правильно, сверяясь с информацией из заполненной Вами таблицы "Последовательности, кодирующие белок". Четвертым будет задан вопрос об имени выходного файла; рекомендуется назвать файлы XXX_gene1.fasta и XXX_gene2.fasta, где XXX — краткое название вашего белка.

    Чтобы сравнить последовательности, воспользуйтесь программой needle:

     needle gene1.fasta gene2.fasta gene1-gene2.needle -auto
    
    (подставьте нужные имена файлов). Если в получившемся файле значение Identity сильно отличается от 100%, значит Вы что-то сделали неправильно.

    Определить, синонимична ли замена, можно, например, сверяясь с генетическим кодом.