Kodomo

Пользователь

Указания к заданию 1

Как искать в Swiss-Prot

Зайти на http://www.uniprot.org/ . Нажать кнопку "Advanced search". Выбрать в меню Field нужное поле (например, для поиска по названию функции – "Protein name [DE]", по ферментативной активности – "Enzyme classification (EC)", по названию организма – "Organism [OS]", по таксону – "Taxonomy [OC]"). В окошко Term вписать нужное слово и нажать "Add&Search". Чтобы уточнить поиск, снова нажать "Advanced Search" и т.д. Имеет смысл рассмотреть то, что появляется в окошке "Query" – поняв синтаксис запросов, можно будет писать их непосредственно, на нажимая по многу раз "Advanced Search". Если не уверены в каких-то буквах названия белка, можно заменять их звёздочками. Чтобы получить список только записей Swiss-Prot, нажмите "reviewed" (под "Results").

Чтобы попасть на страницу конкретной записи, кликните по гиперссылке в столбце "Entry". На этой странице много полезных ссылок, в частности на записи банка EMBL, GenBank и DDBJ с геном данного белка. Чтобы получить запись в её исходном виде, надо кликнуть по жёлтой кнопочке "text" справа вверху, чтобы получить последовательность в fasta-формате – по "fasta".

Как найти и вырезать последовательность, кодирующую данный белок

Коды доступа записей EMBL, в которых аннотированы гены данного белка, можно найти в записи Uniprot, в поле DR, сразу после "EMBL". Координаты кодирующих участков можно найти в записи EMBL, в поле FT с ключом CDS. В этом поле слово complement означает, что кодирующая последовательность получается взятием комплементарной к указанному участку, слово join – что она получается объединением указанных участков. Запись с кодом доступа (AC), к примеру, M12345 находится по адресу http://www.ebi.ac.uk/ena/data/view/M12345&display=text . Если в записи много CDS, ищите нужную по AC своего белка.

Команда seqret пакета EMBOSS позволяет, в частности, вырезать указанный пользователем участок и сохранять его в fasta-формате.

Примеры работы с программами пакета EMBOSS

seqret m12345.embl m12345.fasta

Если в файле m12345.embl лежала последовательность в формате EMBL, то в файле m12345.fasta окажется та же последовательность в формате fasta. Программа seqret сама распознаёт стандартные форматы (fasta, EMBL, GenBank, Swiss-Prot и некоторые другие). При этом она не смотрит на расширение, а только на содержание файла. Но всё же лучше, если расширение будет отражать формат – это поможет вам избежать путаницы в ваших файлах.

seqret m12345.embl m12345.fasta -sask

То же, но программа задаст вам вопросы: с какой буквы записи начать последовательность, на какой букве закончить и (если последовательность нуклеотидная) заменить ли её комплементарной.

seqret m12345.embl[34:86] fragment.fasta

Без всяких вопросов в файл fragment.fasta будет помещён фрагмент с 34 по 86 буквы включительно.

seqret m12345.embl[34:86] fragment.fasta -srev

То же, но вместо исходного фрагмента будет сохранён комплементарный к нему.

seqret m12345.embl[34:86] stdout

Вместо записи в файл фрагмент будет выдан на консоль (точнее, в поток стандартного вывода). Удобно, если нужно добавить последовательность к уже имеющемуся файлу (достаточно дописать в конец приведённой команды ">> filename.fasta").

union manyseqs.fasta oneseq.fasta

Если в файле "manyseqs.fasta" было несколько последовательностей в fasta-формате, в "oneseq.fasta" появится одна объединённая.

transeq nucleic.fasta protein.fasta

Формальная трансляция нуклеотидной последовательнсоти в аминокислотную. Может пригодится для проверки того, действительно ли у вас получилась последовательность, кодирующая ваш белок.