№ 1. Из UniProt были скачаны следующие полные протеомы: 1) ID UP000002524 - протеом Deinococcus radiodurans (strain ATCC 13939 / DSM 20539 / JCM 16871 / LMG 4051 / NBRC 15346 / NCIMB 9279 / R1 / VKM B-1422) 2) ID UP000000625 - протеом Escherichia coli (strain K12) (Strain: K12 / MG1655 / ATCC 47076) № 2, 3. Число последовательностей в каждом протеоме было подсчитано двумя методами: скриптом python (ВНИМАНИЕ, написано на python 3 !, для python 2 надо убрать скобки в команде print), команда запуска [ python pr6.py "Deinococcus radiodurance proteome.fasta" ] и [ python pr6.py "E.coli K-12 proteome.fasta" ] ; а также командами bash [ grep -c ">" Deinococcus\ radiodurance\ proteome.fasta ] и [ grep -c ">" E.coli\ K-12\ proteome.fasta ]. Получилось, что в протеоме Deinococcus radiodurans 3085 последовательностей, а в протеоме Escherichia coli K12 их 4313. Собственно, это совпадает и с числами, представленными в колонке Protein count для соответствующих протеомов. ![]() ![]() Число аминокислот было посчитано командами EMBOSS [ wordcount Deinococcus\ radiodurance\ proteome.fasta -wordsize=1 -outfile=deira.txt ] и [ wordcount E.coli\ K-12\ proteome.fasta -wordsize=1 -outfile=ecoli.txt ]. Эти команды создавали файлы с перечислением количества вхождений всех аминокислот в протеоме. Таким образом, сложив их, мы получили общее количество аминокислот этого протеома. Подсчет, кстати говоря, выполнялся не вручную (легко ошибиться, оперируя большими числами, да и просто лень), а с помощью скромненького скрипта python (ВНИМАНИЕ, написано на python 3 !), команда запуска [ python pr6-2.py deira.txt ] и [ python pr6-2.py ecoli.txt ]. Получилось, что протеом Deinococcus radiodurans содержит 949276 аминокислот, а протеом Escherichia coli K12 - 1351622 аминокислот. № 4. Был вычислен процент каждой аминокислоты в каждом протеоме, посчитана разность процентов для каждой аминокислоты. Ниже представлена таблица, упорядоченная по убыванию процентов встречаемости аминокислот в протеоме Deinococcus radiodurans. Таблица создана с помощью Excel и вставлена в html-файл также средствами Excel (поэтому она такая корявая). Ссылка на файл xlsx Сравнительная таблица процентов встречаемости аминокислот
Комментарий к таблице: У D.radiodurans и E.coli K-12 наблюдается некоторое сходство в составе протеомов: у них совпадают 3 самые часто встречающиеся аминокислоты (аланин A, лейцин L, глицин G); и лишь одна среди 3 самые редко встречающихся аминокислот различается: у D.radiodurans это метионин M, триптофан W и цистеин C ; у E.coli K-12 - гистидин H, триптофан W и цистеин C (селеноцистеин U мы не учитывали, т.к. у D.radiodurans его вообще нет). Самая большая разница в процентах в пользу D.radiodurans - у аланина A (2,6936%). Самая большая разница в процентах в пользу E.coli K-12 - у изолейцина I (2,7259%). Справка по команде compseqCompseq, так же как и wordcount, подсчитывает количество слов заданной длины (n-меров). Но compseq помимо этого умеет считать частоту встречаемости этих уникальных слов (предполагаемую, наблюдаемую и их частное).Обязательные опции: [-sequence] имя файла, содержащего последовательность(и) -word число, равное длине подсчитываемых n-меров [-outfile] имя выходного файла Здесь видна полная аналогия с wordcount (единственное отличие - в случае wordcount опция, задающая длину слов, называется -wordsize). Но дополнительных опций у compseq больше. Их них стоит обратить внимание на: -infile чтобы использовать файл, заранее созданный командой compseq, чтобы установить предполагаемые частоты -calcfreq (надо указывать [Y]) чтобы посчитать предполагаемую частоту -reverse (надо указывать [Y]) чтобы также учитывать n-меры на комплементарной цепи -frame (указать число >0) чтобы установить рамку считывания и искать n-меры только в ней Возмножно, задание 1 было бы удобнее выполнять командой compseq. |