Чтобы получить последовательности дельта-антигенов из банка Swiss-Prot,
воспользуйтесь SRS. Все дельта-антигены происходят из вирусов рода"Deltavirus"
и имеют в описании слово "delta". Поэтому в SRS можно создать запрос
к банку Swiss-Prot, написав эти слова в соответствующих полях, а затем
сохранить найденные последовательности в fasta-формате (кнопка Save).
Рекомендуем назвать файл с последовательностями "delta.fasta".
Чтобы выровнять несколько последовательностей, находящихся в
файле "delta.fasta" программой muscle, надо соединиться с машиной
kodomo-count, сделать активной рабочую директорию, а затем
выполнить команду:
muscle -in delta.fasta -out delta_aligned.fasta
(после -out должно стоять имя выходного файла, которое, конечно,
может быть любым; желательно, однако, по возможности давать файлам
с результатами
"говорящие" имена, как в приведённом примере). Выходной файл
(по умолчанию) имеет fasta-формат, но содержит, в отличие от входного,
не просто набор последовательностей, а выравнивание.
К упражнению 2
Ваша задача — набрать несколько белков, чьи последовательности
выравниваются (например, BLAST'ом) с последовательностью Вашего
белка так, что 1) E-value сходства по данным выравниваниям —
не более одной тысячной (тем самым эти белки являются достоверными
гомологами); 2) выравнивания имеют процент идентичности не более 90
(то есть белки не слишком близки к вашему). Кроме того, желательно,
чтобы последовательности были не слишком близки и друг к другу тоже.
Ваши белки имеют разное количество гомологов в Swiss-Prot, с разной
степенью сходства. Предлагается действовать по следующей общей схеме:
Запустите BLAST по Swiss-Prot, ограничив выдачу таксоном Bacteria
и поставив порог на E-value, равный 0.001.
Если число найденных гомологов невелико, берите все, следя только за тем,
чтобы не попадались одинаковые белки из слишком родственных
организмов (например, если вы взяли белок
с идентификатором XXXX_SALTY, то уже не берите XXXX_SALEP —
родовое название организма отражается первыми тремя буквами второй части
идентификатора).
Если же выдача большая, то можно поступить двояко: либо просмотреть
выравнивания и выбрать несколько последовательностей различной
удалённости (желательно, чтобы в выборке присутствовали последовательности
с процентами идентичности от 40 до 80), либо запустить BLAST несколько
раз, ограничивая выдачу различными таксонами бактерий, в которые
не входит E.coli, и взять по одной-две находки из
каждой выдачи. При этом может помочь следующая информация.
Наиболее богатые изученными видами отделы бактерий:
Cyanobacteria, Firmicutes, Actinobacteria, Bacteroidetes, Spirochaetes
и Proteobacteria, к которым относится E.coli. Классы отдела Proteobacteria: Alphaproteobacteria,
Betaproteobacteria, Gammaproteobacteria (к которым относится
E.coli), Deltaproteobacteria и Epsilonproteobacteria.
Наиболее богатые изученными видами порядки гаммапротеобактерий:
Pseudomonadales, Alteromonadales, Pasteurellales, Vibrionales
и Enterobacteriales, к которым относится E.coli.
Создайте в рабочей директории файл со списком идентификаторов
(можно и номеров доступа) отобранных белков,
перед которыми стоит "sw:", например:
Желательно назвать файл "myproteins.list" — это так называемый
"лист-файл", то есть файл со списком "адресов" последовательностей.
Выполните (в своей рабочей директории на kodomo-count) команду:
seqret @myproteins.list myproteins.fasta
чтобы получить в файле myproteins.fasta последовательности в fasta-формате.
Знак "@" указывает программе seqret, что входной файл надо рассматривать
как лист-файл, а не как файл с последовательностями.
Разумеется, вместо всего этого можно воспользоваться SRS,
написав запрос по полю ID и разделив идентификаторы знаком "|" (то есть "или").
Когда Вы получите файл в fasta-формате, получить выравнивание и импортировать
его в GeneDoc можно аналогично предыдущему упражнению.