wordcount | compseq |
Подсчитывает и показывает число уникальных молекулярных последовательностей – слов.
| Не только подсчитывает число уникальных слов, но и вычисляет для них предполагаемую частоту (по умолчанию равную для всех слов), наблюдаемую частоту, и частное наблюдаемой и предполагаемой частот.
|
1. Стандартные опции |
[-sequence] - ссылка на последовательность, в которой ищем слова. Одинаково для обеих команд.
|
-wordsize – количество символов в считаемых словах (на вход принимаются целые числа).
| -word - количество символов во всех возможных словах, которые составляются из аминокислот, если это последовательность белка, или для нуклеотидов, если это последовательность ДНК (на вход принимаются целые числа).
|
[-outfile] – выводной файл с расширением .wordcount по умолчанию.
| [-outfile] – выводной файл с расширением .compseq по умолчанию.
|
2. Дополнительные опции
|
-mincount – минимальное количество раз, которое должно встретиться слово, чтобы программа вывела это слово в отчет (на вход принимаются целые числа).
| -frame – можно поставить границу рамки считывания (на вход принимаются целые числа), в которой хочется посчитать слова. Если –frame 0, то рамка начинается с первого символа, -frame 1, со второго и так далее. Если значение –frame превосходит –word, то программа предупреждает, что аргумент неправильный и выводит результат для значения –frame 0. Можно использовать и для нуклеотидов, и для аминокислот.
|
| -ignorebz – если нужно посчитать слова, содержащие нестандартные обозначения B (для аспарагина и аспартата) и Z (для глутамина и глутамата), то –ignorebz Y; если не нужно считать эти слова, то –ignore N (слова с B и Z будут отнесены в категорию Others, как и по умолчанию).
|
| -reverse – (для нуклеотидных последовательностей) посчитает слова той же длины еще и в последовательности, комплементарной данной. Для аминокислотной последовательности ничего не произойдет.
|
| -calcfreq – устанавливает предполагаемую частоту не равную для всех слов (то есть перемноженные равные для всех символов частоты), а перемножает реальные частоты встречаемости символов данного слова. То есть для слов длины 1 предполагаемая и наблюдаемая частоты совпадут.
|
| -zerocount N – не будет выводить слова, которые ни разу не встретились. (По умолчанию стоит –zerocount Y, выводит)
|
| -infile – на вход принимается имя файла-результата работы compseq, в котором содержатся предполагаемые частоты встречаемости слов, которые мы хотим использовать в этот раз. Количество символов в слове, а также код (аминокислотный/нуклеотидный) должны совпадать.
|
3. Опция для бОльшей информации
|
-help – показывает все возможные опции, а также команды для еще бОльшей информации –help -verbose
|