Пакет EMBOSS

Скрипт, находящий частоты динуклеотидов в геноме бактерии (задание 3)

Ссылка на скрипт

Описание работы:
Скрипт получает последовательность генома в виде USA в качестве аргумента и выводит на экран таблицу частот динуклеотидов в этом геноме, включающую наблюдаемые частоты, ожидаемые частоты, подсчитанные с учётом однонуклеотидного состава последователности, и отношение этих частот; последней строкой выдаются данные по динуклеотиду (в случае совпадающих значений - динуклеотидам), чья наблюдаемая частота в наибольшее число раз отклоняется от ожидаемой частоты: больше в наибольшее число раз или меньше в наибольшее число раз.

Пример использования:
Была использована скаченная в файл sequence_gemmata.fasta последовательность полного генома (1 нуклеоид) бактерии Gemmata obscuriglobus (GenBank AC CP042911.1).
Скрипт вызван командой bash 3.sh sequence_gemmata.fasta
Результат вызова скрипта:

#
# Dinucl	Obs Frequency	Exp Frequency	Obs/Exp Frequency
#
AA		0.0332241	0.0268155	1.2389867
AC		0.0605889	0.0551880	1.0978653
AG		0.0458546	0.0551166	0.8319575
AT		0.0240867	0.0266344	0.9043453
CA		0.0530487	0.0551880	0.9612372
CC		0.0979920	0.1135802	0.8627566
CG		0.1404029	0.1134332	1.2377584
CT		0.0455729	0.0548152	0.8313921
GA		0.0636139	0.0551166	1.1541701
GC		0.1150186	0.1134332	1.0139759
GG		0.0980792	0.1132865	0.8657624
GT		0.0598690	0.0547443	1.0936113
TA		0.0138677	0.0266344	0.5206679
TC		0.0634171	0.0548152	1.1569247
TG		0.0522439	0.0547443	0.9543252
TT		0.0331198	0.0264545	1.2519539
#
# Most Deviated
#
TA		0.0138677	0.0266344	0.5206679

Отображены все динуклеотиды и данные по их частотам. Последней строкой отображены данные по динуклеотиду, чья частота наиболее отклоняется от своего ожидаемого значения: в данном случае динуклеотид TA встречается практически в 2 раза реже, чем от него ожидается, и, сравнив с таблицей, можно увидеть, что частоты всех остальных динуклеотидов ближе к своему ожидаемому значению.

Главная страница


© Степан Пухов

2019