EMBOSS

Скачивание протеомов:

Перейти с заглавной страницы UniProt по гиперссылки Proteomes.
С помомощью расширенного поиска по видовому названию были найдены потеомы E. coli str. K12 и заданной бактерии (в моем случае Ureaplasma parvum serovar 3 str. ATCC 700970). При этом протеомы были референсными.
Щелкнув по числу белков в нужном протеоме, переходим на страницу где с помощью кнопки "Download" → FASTA → сохраняем файл на компьютер и переносим в рабочую директорию (перед этим прешлось сначала распаковать сохраненный файл). Итоговые файлы для удобства были переименованы (в названиях указаны видовые названия организмов).

Подсчет последовательностей и аминокислот

Подсчет количества последовательностей

В файлах fasta формата каждая последовательность начинается с символа ">", который мы и будем искать в файлах , содержащих белки. Для функции grep была также взята опция -c, которая выдает количество совпадений.

Подсчет количества аминокислот

Для подсчета аминокислот была использована функция wordcount, которая считает и собирает в отдельном файле уникальные слова заданной длины (в нашем случае длины 1). На рисунке ниже видно как задается данная функция и содержание выданного функцией файла.

Сравнение wordcount и compseq

Wordcount. Синтаксис: wordcount -sequence seqall -wordsize integer [-mincount integer] -outfile outfile. Подсчитывает число уникальны слов размера -wordsize, которые встречаются как минимум mincount раз (по умолчанию 0), в файле seqall (содержит последовательность/сти) и выводит результат в текстовый файл outfile.
Compseq. Синтаксис: compseq -sequence seqall [-infile infile] -word integer [-frame integer] -ignorebz boolean -reverse boolean [-calcfreq boolean] -outfile outfile [-zerocount boolean]. В самом простом случае подсчитывает число и частоту встречаемости уникальных слов размера -word в последовательности seqall (содержит последовательность/сти) и выводит эти результаты, а также соотношение наблюдаемой частоты и ожидаемой в текстовом файле outfile (ожидаемая частота рассчитывается из предположения, что все слова встречаются одинаково часто.

-infile - изпользовать наблюдаемые в указанном файле, уже созданном compseq, частоты в качестве ожидаемых.
-frame - рамка прочтения, число символов, на которое мы сдвигаем распознавание слов после каждого предыдущего, по умолчанию 1.
-ignorebz - не учитывать редко используемые символы B (остаток аспартата/аспарагина) и Z (остаток глутамата/глутамина), по умолчанию Y.
-reverse - посчитать слова в комплементарной цепи для нуклеиновой последовательности, по умолчанию N.
-zerocount - не выводить в файл (но учитывать в расчетах, где необходимо) слова с нулевой встречаемостью, по умолчанию N.

Практикум №7. Пакет EMBOSS, grep.

Скачивание протеомов:

Подсчет последовательностей и аминокислот

Подсчет количества последовательностей

Подсчет количества аминокислот

Сравнение wordcount и compseq

Составление таблицы