Для выполнения задания я взял последовательность генома Nostoc azollae 0708, доступную для скачивания по ссылке.
Были выбраны рестриктазы II из генома N. azollae с известными сайтами рестрикции(табл. 1). Microsoft Excel 2010 позволил создать из предоставленной таблицы файл с сайтами рестрикции не короче 4 п.н.
Рестриктаза II | Сайт рестрикции |
Naz708ORF384P, M.Naz708ORF384P, M.Naz708ORF1749P | GGCC |
Naz708ORF691P, M.Naz708ORF691P | GGTNACC |
M.Naz708ORF874P, M.Naz708ORF3585AP, M.Naz708ORF3585BP, M.Naz708ORF3585CP, M.Naz708ORF3585DP | GGWCC |
M.Naz708ORF907P | GDGCHC |
Naz708ORF1421P, M.Naz708ORF1421P | CCTNAGG |
Naz708ORF4635P, M.Naz708ORF3606P, M.Naz708ORF3602P | CTGCAG |
M.Naz708ORF3736P | CGATCG |
M.Naz708ORF4727BP, M.Naz708ORF4727AP | CYCGRG |
M.Naz708ORF4929P | GATC |
M.Naz708ORF5150P | CAGCTG |
С помощью CBcalc с параметром "method of Burge and co-authors" была получена таблица с информацией о представленности сайтов в геноме. С помощью MS Excel отобрал сайты со значением "O/E ratio (BCK)" меньше 0.8 и получил файл с ними. Итоговый файл с недопредставленными рестриктазами и их сайтами(функция ЭТ ВПР). Разумеется, все сайты из таблицы 1 оказались в итоговом файле. Это объясняется тем, что рестриктазы должны резать чужеродную ДНК(e.g. вирусную), которая отличается как раз уровнем представленности их сайтов.
С помощью скрипта на Python был собран файл из последовательностей недопредставленных рестриктаз. На kodomo с помощью команд провел поиск tblastn закодированных похожих последовательностей с e-value 0.01, чтобы выдаче было больше потенциальных гомологов. В выдаче BLAST оказались находки с хорошими значениями e-value, значит эти рестриктазы действительно закодированы в геноме.
makeblastdb -dbtype nucl -in sequence.fasta -out db #нукл. п-ть генома tblastn -query catfasta.txt -db db -evalue 0.01 -out blastout.txt #а/к п-ти ищутся в нукл. банке
Выбран AC B2V8C0 - Probable septum site-determining protein MinC, ингибитор клеточного деления, блокирующий образование Z-кольца, принадлежит неклассифицированному Sulfurihydrogenibium. С четвертой итерации PSI-BLAST перестал находить новые последовательности, алгоритм сошелся, находки образуют хорошее семейство, обладают высоким родством.