1. Мною был скачан протеом Clostridium beijerinckii (strain ATCC 51743 / NCIMB 8052) (Clostridium acetobutylicum), так как аннотированного протеома Clostridium beijerinckii 59B найти не удалось. Файл был сохранён в рабочую директорию и распакован.
Организм Escherichia coli (strain K12) Proteome IDi UP000000625 Количество записей 4306 Количество остатков 1398442 Организм Clostridium beijerinckii (strain ATCC 51743 / NCIMB 8052) (Clostridium acetobutylicum) Proteome IDi UP000000565 Количество записей 5003 Количество остатков 1577329
Программой wordcount были подсчитаны частоты встречаемости букв в протеомах. В Excel посчитано общее число букв и процент каждой буквы в каждом протеоме. Была создана таблица процентов букв в обоих организмах, упорядоченная по убыванию процента в моём организме. Посчитана разность процентов для каждой буквы.
Командная строка вызова: "python testlooker.py test.txt out.txt" и сылка на скрипт. Сылка на Excel файл.
Аминокислота | Процент в геноме Clostridium beijerinckii | Процент в геноме Escherichia coli | Разность процентов |
I | 9,92 | 5,81 | 4,11 |
L | 8,93 | 10,67 | 1,73 |
K | 8,76 | 4,20 | 4,56 |
E | 7,42 | 5,53 | 1,88 |
S | 6,64 | 5,94 | 0,70 |
N | 6,52 | 3,80 | 2,72 |
G | 6,43 | 7,49 | 1,06 |
V | 6,27 | 7,14 | 0,87 |
A | 5,73 | 9,66 | 3,92 |
D | 5,68 | 5,16 | 0,51 |
T | 4,96 | 5,46 | 0,50 |
F | 4,32 | 3,88 | 0,44 |
Y | 4,08 | 2,78 | 1,29 |
R | 3,26 | 5,67 | 2,40 |
P | 2,72 | 4,39 | 1,66 |
M | 2,58 | 2,89 | 0,30 |
Q | 2,42 | 4,43 | 2,00 |
H | 1,34 | 2,30 | 0,96 |
C | 1,17 | 1,17 | 0,00 |
W | 0,73 | 1,54 | 0,80 |
Чаще всего в протеоме Clostridium beijerinckii встречаются остатки изолейцина, лейцина и лизина (9,92%, 8,93%, 8,76%) , а в протеоме Escherichia coli остатки лейцина, аланина и глицина (10,67%, 9,66%, 7,49%) соответственно. Самыми редкими остатками, в пределах от 2,30 до 0,73, у Clostridium beijerinckii и Escherichia coli являются гистидин, цистеин и триптофан. Самая большая разница в содержании остатков в пользу первого организма наблюдается для остатков лизина - 4,56%. Самая большая разница в содержании остатков в пользу второго организма наблюдается для остатков алнина - 3,92%.
Compseq --help Программа считает слова в файле с помощью сдвига рамки с длиной ( -word). Для подсчёта слов в нуклеотидной последовательности можно использовать параметр 3. Можно использовать заготовленныйе файлы для использования ожидаемой частоты включаемости слов (-infile infile) Программа может счтывать слова в определённой рамке со сдвигом. Полезнро использовать для анализа вырожденных синонимичных замен, например. (-frame integer) Может использоваться для подсчёта слов как в прямой, так и в обратной рамке считывания (-reverse boolean) Исключение слов длины 0 из выдачи. (-[no]zerocount boolean) Wordcount --help Функциональность программы ограничена. Можно установить нижнюю границу выдачи (-mincount)
Видно, что compseq предоставляет более широкие возможности для анализа последовательностей. Я бы выбрал её, так как выдача программы включает количество найденных слов, их частоту, ожидаемую частоту и отношение действительной частоты к ожидаемой.
Упражнение 1 infoseq Clostridium_beijerinckii_proteome.fasta -only -name -accession -length -description > info_Clostridium.txt infoseq Clostridium_beijerinckii_proteome.fasta -only -name -accession -length -description | grep -c PE=1 > info_Clostridium.txt Количество искомых строк infoseq Clostridium_beijerinckii_proteome.fasta -only -name -accession -length -description | grep PE=1 > info_Clostridium.txt Упражнение 2 seqret --help 2> "seqret_help.txt" Упражнение 3 entret sw:"HXA*HUMAN" less hxa3_human.entret| grep -w -F ID less hxa3_human.entret| grep -w -F FT less hxa3_human.entret| grep -w -F DE Упражнение 4 seqret hxa1_human.fasta Упражнение 5 seqret hxa1_human.fasta -sask| descseq -description "Homeobox Hox-A1" Упражнение 6 entret sw:POLG_FMDVA stdout| grep "FT CHAIN"| less entret sw:POLG_FMDVA stdout| grep "FT CHAIN"> POLG_FMDVAgrep.txt
© Кравченко Павел
2017