Для этого задания я выбрала сигналы митохондриальной локализации. Это небольшие пептиды длиной 15-70 аминокислот, в которых гидрофобные и положительно заряженные пептиды чередуются, образуя амфипатическую спираль, гидрофобную с одной стороны и гидрофильную с другой. Именно эта последовательность, находящаяся на N-конце белка, и обеспечивает его транспорт в митохондрии.
Специфический транспорт осуществляется различными путями с помощью связывания с рецепторно-сигнальными участками на поверхности митохондриальной мембраны. Как только белок-предшественник с сигналом митохондриальной локализации достигает матрикса митохондрий, этот короткий пептид расщепляется пептидазой митохондриального процессинга. Этот сигнал настолько эффективен, что, согласно экспериментам, белки последовательности, в которую искусственно вставлен сигнал молекулярной локализации, практически полностью транспортируются в митохондрии.
Для выполнения этого практикума я использовала код Георгия Муравьева
В этом задании я анализировала последовательность Козак. На вход скрипту я подала таблицу human-genes.tsv, содержащую гены человека и их локализацию в геноме. Полученные результаты приведены ниже.
С помощью онлайн-ресурса WebLogo я получила лого консенсуса Козак. В положении 5 заметно преобладание пуринов, а в положениях 8-10 очевиден стартовый триплет ATG.
Я подсчитала количество повторов GAATTC в референсном геноме E.Coli и получила значение 787, хотя с учетом ГЦ-состава, ожидалось получить 1312. Р-value в этом случае составляет 1,12*10^(-30). Следовательно, мы должны отвергнуть нулевую гипотезу и сказать, что этих повторов в геноме значимо меньше.