На главную

На страницу семестров

Назад

Практикум 7

Протеомы и EMBOSS


На данной странице представлен отчёт о выполнении практикума 7

1. Мною был скачан протеом Clostridium beijerinckii (strain ATCC 51743 / NCIMB 8052) (Clostridium acetobutylicum), так как аннотированного протеома Clostridium beijerinckii 59B найти не удалось. Файл был сохранён в рабочую директорию и распакован.

Информация о протеомах:

Организм Escherichia coli (strain K12)
Proteome IDi UP000000625
Количество записей 4306
Количество остатков 1398442


Организм Clostridium beijerinckii (strain ATCC 51743 / NCIMB 8052) (Clostridium acetobutylicum)
Proteome IDi UP000000565
Количество записей 5003
Количество остатков 1577329


Программой wordcount были подсчитаны частоты встречаемости букв в протеомах. В Excel посчитано общее число букв и процент каждой буквы в каждом протеоме. Была создана таблица процентов букв в обоих организмах, упорядоченная по убыванию процента в моём организме. Посчитана разность процентов для каждой буквы.

Командная строка вызова: "python testlooker.py test.txt out.txt" и сылка на скрипт.
Сылка на Excel файл.

Таблица 1. Проценты букв в слитых протеомах
АминокислотаПроцент в геноме Clostridium beijerinckiiПроцент в геноме Escherichia coliРазность процентов
I9,925,814,11
L8,9310,671,73
K8,764,204,56
E7,425,531,88
S6,645,940,70
N6,523,802,72
G6,437,491,06
V6,277,140,87
A5,739,663,92
D5,685,160,51
T4,965,460,50
F4,323,880,44
Y4,082,781,29
R3,265,672,40
P2,724,391,66
M2,582,890,30
Q2,424,432,00
H1,342,300,96
C1,171,170,00
W0,731,540,80


Комментарии

Чаще всего в протеоме Clostridium beijerinckii встречаются остатки изолейцина, лейцина и лизина (9,92%, 8,93%, 8,76%) , а в протеоме Escherichia coli остатки лейцина, аланина и глицина (10,67%, 9,66%, 7,49%) соответственно. Самыми редкими остатками, в пределах от 2,30 до 0,73, у Clostridium beijerinckii и Escherichia coli являются гистидин, цистеин и триптофан. Самая большая разница в содержании остатков в пользу первого организма наблюдается для остатков лизина - 4,56%. Самая большая разница в содержании остатков в пользу второго организма наблюдается для остатков алнина - 3,92%.




Задание 2

Compseq --help
Программа считает слова в файле с помощью сдвига рамки с длиной ( -word). Для подсчёта слов в нуклеотидной последовательности можно использовать параметр 3.
Можно использовать заготовленныйе файлы для использования ожидаемой частоты включаемости слов (-infile infile)
Программа может счтывать слова в определённой рамке со сдвигом. Полезнро использовать для анализа вырожденных синонимичных замен, например. (-frame integer)
Может использоваться для подсчёта слов как в прямой, так и в обратной рамке считывания (-reverse boolean)
Исключение слов длины 0 из выдачи. (-[no]zerocount boolean)


Wordcount --help
Функциональность программы ограничена. Можно установить нижнюю границу выдачи (-mincount)



Видно, что compseq предоставляет более широкие возможности для анализа последовательностей. Я бы выбрал её, так как выдача программы включает количество найденных слов, их частоту, ожидаемую частоту и отношение действительной частоты к ожидаемой.



Команды к упражнениям по EMBOSS

Упражнение 1
infoseq Clostridium_beijerinckii_proteome.fasta -only -name -accession -length -description > info_Clostridium.txt
infoseq Clostridium_beijerinckii_proteome.fasta -only -name -accession -length -description | grep -c PE=1 > info_Clostridium.txt Количество искомых строк
infoseq Clostridium_beijerinckii_proteome.fasta -only -name -accession -length -description | grep PE=1 > info_Clostridium.txt

Упражнение 2
seqret --help 2> "seqret_help.txt"

Упражнение 3
entret sw:"HXA*HUMAN" less hxa3_human.entret| grep -w -F ID
less hxa3_human.entret| grep -w -F FT
less hxa3_human.entret| grep -w -F DE

Упражнение 4
seqret hxa1_human.fasta

Упражнение 5
seqret hxa1_human.fasta -sask| descseq -description "Homeobox Hox-A1"

Упражнение 6
entret sw:POLG_FMDVA stdout| grep "FT CHAIN"| less
entret sw:POLG_FMDVA stdout| grep "FT CHAIN"> POLG_FMDVAgrep.txt





© Кравченко Павел
2017