Практикум #7. EMBOSS и протеомы

26 марта 2019 г.

Знакомство с EMBOSS, команда grep

Данный практикум посвящен работе EMBOSS. Это бесплатный пакет программного обеспечения с открытым исходным кодом, разработанный для нужд сообщества пользователей молекулярной биологии и биоинформатики.

Задание 1. Частоты остатков в протеомах

Что сделали?
Сначала скачали из Uniprot два полных протеома в fasta-формате: Escherichia coli K12 и Kitasatospora setae. Затем посчитали число последовательностей и число аминокислот (не число разных, а общее число) в каждом протеоме. Программой wordcount из пакета EMBOSS посчитали частоты (в штуках) букв (аминокислотных остатков) в протеомах. Далее вычислили процент каждой буквы в каждом протеоме (с помощью Python, скрипт ). Создали единую таблицу процентов букв в обоих организмах, упорядоченную по убыванию процента в Kitasatospora setae (также с помощью Python, скрипт ). Посчитали разность процентов для каждой буквы. Полученная информация представлена в таблице 1.

Информация о протеомах
Протеом Escherichia coli. ID: UP000000625. Количество записей: 4352.
Протеом Kitasatospora setae. ID: UP000007076. Количество записей: 7443.

Таблица 1. Основная информация о протеомах.
Остаток Процент в K. setae Процент в E. coli Разница
A 15.0 9.5 5.5
L 11.0 10.7 0.4
G 9.7 7.4 2.4
R 8.3 5.5 2.8
V 8.1 7.1 1.1
P 6.8 4.4 2.3
T 6.0 5.4 0.6
D 5.8 5.1 0.6
E 5.3 5.8 -0.4
S 4.7 5.8 -1.1
Q 2.7 4.4 -1.7
I 2.6 6.0 -3.4
F 2.5 3.9 -1.4
H 2.3 2.3 0.0
Y 2.0 2.8 -0.9
K 1.7 4.4 -2.7
N 1.7 3.9 -2.3
W 1.5 1.5 -0.0
M 1.4 2.8 -1.4
C 0.8 1.2 -0.4

Самыми популярными аминокислотами являются: аланин, лейцин, глицин, валин. Интересно, что в протеоме у Kitasatospora setae очень много аланина, пролина, глицина и аргинина, в то время как у Escherichia coli больше изолейцина, лизина и глутамина.

Задание 2. Комманда compseq, справочная информация.

Далее будет приведена справочная информация для compseq - одной из комманд EMBOSS.

Функция

Рассчитывает состав уникальных слов в последовательностях.

Описание

compseq вычисляет состав слов заданной длины (из 2 букв, из 3 и т. д.) во входных последовательностях. Длина слова указывается пользователем. Уникальные последовательности (слова), их наблюдаемое количество, наблюдаемая частота, ожидаемая частота и (наблюдаемая / ожидаемая) частота записываются в выходной файл. (Наблюдаемая / ожидаемая) частота выделяет любые слова с необычно высоким (или низким) вхождением во входных последовательностях.

Пример

Для подсчета частот динуклеотидов в файле: user@ubuntu:~$ compseq tembl:x65923 -word 2 result3.comp В данном примере на вход поступает PDB файл из банка последовательностей TrEMBL.
На выходе получаем: # # Output from 'compseq' # # The Expected frequencies are calculated on the (false) assumption that every # word has equal frequency. # # The input sequences are: # X65923 Word size 2 Total count 517 # # Word Obs Count Obs Frequency Exp Frequency Obs/Exp Frequency # AA 45 0.0870406 0.0625000 1.3926499 AC 20 0.0386847 0.0625000 0.6189555 AG 45 0.0870406 0.0625000 1.3926499 AT 14 0.0270793 0.0625000 0.4332689 CA 34 0.0657640 0.0625000 1.0522244 CC 43 0.0831721 0.0625000 1.3307544 CG 25 0.0483559 0.0625000 0.7736944 CT 37 0.0715667 0.0625000 1.1450677 GA 31 0.0599613 0.0625000 0.9593810 GC 43 0.0831721 0.0625000 1.3307544 GG 46 0.0889749 0.0625000 1.4235977 GT 28 0.0541586 0.0625000 0.8665377 TA 15 0.0290135 0.0625000 0.4642166 TC 33 0.0638298 0.0625000 1.0212766 TG 32 0.0618956 0.0625000 0.9903288 TT 26 0.0502901 0.0625000 0.8046422 Other 0 0.0000000 0.0000000 10000000000.0000000 Вывод программы wordcount (другой input): L 144488 A 128666 G 99690 V 95687 I 81357 S 78483 E 77984 R 74712 T 73007 D 69656 Q 60126 P 59938 K 59642 N 53299 F 52705 Y 38502 M 38236 H 30714 W 20735 C 15727 U 3 По-моему, использовать wordcount для наших целей (просто подсчет аминокислот) легче, потом мне самому проще импортировать эти данные в python и обрабатывать их там.