Программа getorf |
1 заданиеgetorf - программа, находящая в нуклеотидной последовательности открытые рамки считывания и на выходе дает последовательность, предположительно кодирующую белок.Использование команды getorf с указателями(если так можно перевести слово qualifiers), дающими заданный результат getorf D89965.fasta result.fasta -minsize 31 -find 1 -table 0последний указатель итак по умолчанию 0, так что его можно не указывать результат записан в рабочей папке Белок, кодируемой последовательностью под номером 5 в итоговом файле, полностью совпадает с искомым белком, в описании EMBL ген принадлежит крысе Rattus norvegicus, однако, запись SwissProt, на которую ссылается данная запись EMBL содержит другой белок, принадлежащий E.coli, который перекрывается с 9 рамкой, и эта рамка определена только с середины белка из записи SwissProt, это несоответствие можно объяснить тем, что ДНК брали из кишечника крысы и, хоть она была и бактериальной, ее посчитали крысиной. 2 заданиеКоличество гомологов для данной тРНК(возьмем, к примеру, BSn5_t20894) в выходном файле программы blastn можно посчитать, введя в командную строку grep 'BSn5_t20894' blastnrseult -c(я сделал выходной файл blastn таблицей без аннотаций, а если сделать таблицу с аннотаций, то из-за свойств файла из полученного числа надо вычесть единицу)Сначала командой grep '>' trna_bacsu.fasta > trnalist я создал файл с названиями последовательностей, затем экспортируем файл в OpenOffice calc и обрезаем лишнее (символы > и названия тРНК(tRNA-pro, tRNA-ala и т.д.), после чего пишем топорный скрипт, затем процессируем его, как написано в помощи к заданию, запускаем и получаем выходной файл с количеством соответствующих гомологов, затем получаем таблицу 3 заданиеИтак, таблица для этого задания
4 задание4.1при изменении параметров penalty и reward количество находок почти не изменилось, лишь чуть-чуть увеличилось, что говорит о том, что немного вырос e-value, при дополнительном уменьшении word size до 4 увеличение гомологов увеличилось значительно(на 10-300 процентов), что неудивительно, ведь бласт в этом случае на первом этапе отбраковывал гораздо меньшее число возможных гомологов, а, значит, мог выравнивать большее число последовательностей. При уменьшении word size до 4, но стандартных reward и penalty число находок было меньше чем в третьем случае, вероятно, из-за того что word size был маленький, было много гэпов, и большие штрафы за них отсеяли часть результатов4.2Я нашел гомолог тРНК BSn5_t20894, который нашелся в 3 случае и не нашелся во втором. Он располагается на участке 41694-41627, и выравнивание имеет e-value 8e-04. Причина, вероятно, в том, что просто не нашлось соответствующего word size по дефолту, чтобы в нем не встретилось гэпов.4.3Я вырезал участок из генома и взял отдельно тРНК, которой он гомологичен и получил выравнивание программой needle, выравнивание подтвердило мои догадки, в этих участках нет длинных "слов"тРНК 1 -gcgccatagccaagtggtaaggcagaggtctgcaaaacctttatcaccggttcaaatccggttggcgc-- 68 |.||.|||||||||.|||||||||..||.||...|..||.|.|||...|||||.|||||.|.|.||.| участок из L.monocytogenes 41694 tgggctatagccaagcggtaaggcaatggactttgactccgtgatcgttggttcgaatccagctagcccag 41627 4.4Используя blastn на NCBI, я обнаружил запись в GenBank, где написано что это никакая не тРНК, а участок гена putrescine carbamoyltransferase(не решился перевести на русский), так что это не гомология, а лишь случайное совпадение. |