Скачивание протеомов:
- Перейти с заглавной страницы UniProt по гиперссылки Proteomes.
- С помомощью расширенного поиска по видовому названию были найдены потеомы E. coli str. K12 и заданной бактерии (в моем случае Ureaplasma parvum serovar 3 str. ATCC 700970). При этом протеомы были референсными.
- Щелкнув по числу белков в нужном протеоме, переходим на страницу где с помощью кнопки "Download" → FASTA → сохраняем файл на компьютер и переносим в рабочую директорию (перед этим прешлось сначала распаковать сохраненный файл). Итоговые файлы для удобства были переименованы (в названиях указаны видовые названия организмов).
Подсчет последовательностей и аминокислот
Подсчет количества последовательностей
В файлах fasta формата каждая последовательность начинается с символа ">", который мы и будем искать в файлах , содержащих белки. Для функции grep была также взята опция -c, которая выдает количество совпадений.
Подсчет количества аминокислот
Для подсчета аминокислот была использована функция wordcount, которая считает и собирает в отдельном файле уникальные слова заданной длины (в нашем случае длины 1). На рисунке ниже видно как задается данная функция и содержание выданного функцией файла.
Сравнение wordcount и compseq
- Wordcount. Синтаксис: wordcount -sequence seqall -wordsize integer [-mincount integer] -outfile outfile. Подсчитывает число уникальны слов размера -wordsize, которые встречаются как минимум mincount раз (по умолчанию 0), в файле seqall (содержит последовательность/сти) и выводит результат в текстовый файл outfile.
- Compseq. Синтаксис: compseq -sequence seqall [-infile infile] -word integer [-frame integer] -ignorebz boolean -reverse boolean [-calcfreq boolean] -outfile outfile [-zerocount boolean]. В самом простом случае подсчитывает число и частоту встречаемости уникальных слов размера -word в последовательности seqall (содержит последовательность/сти) и выводит эти результаты, а также соотношение наблюдаемой частоты и ожидаемой в текстовом файле outfile (ожидаемая частота рассчитывается из предположения, что все слова встречаются одинаково часто.
- -infile - изпользовать наблюдаемые в указанном файле, уже созданном compseq, частоты в качестве ожидаемых.
- -frame - рамка прочтения, число символов, на которое мы сдвигаем распознавание слов после каждого предыдущего, по умолчанию 1.
- -ignorebz - не учитывать редко используемые символы B (остаток аспартата/аспарагина) и Z (остаток глутамата/глутамина), по умолчанию Y.
- -reverse - посчитать слова в комплементарной цепи для нуклеиновой последовательности, по умолчанию N.
- -zerocount - не выводить в файл (но учитывать в расчетах, где необходимо) слова с нулевой встречаемостью, по умолчанию N.