Для последовательности с ID=C4Z088 проведены итерации PSI-Blast с порогом E-value 0.005. Это белок Probable septum site-determining protein MinC из организма Eubacterium eligens ATCC 27750
Идентификатор белка: | C4Z088 | ||||
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 162 | Q2P036.1 | 0.004 | Q5F5V4.1 | 0.005 |
2 | 188 | O25693.2 | 1,00E-09 | A7H8E6.1 | 0.049 |
3 | 188 | Q9ZM51.1 | 1,00E-11 | A7H8E6.1 | 0.011 |
4 | 188 | Q9ZM51.2 | 5,00E-13 | A7H8E6.2 | 0.015 |
5 | 188 | Q9ZM51.3 | 2,00E-13 | A7H8E6.3 | 0.019 |
2. Эндонуклеазы рестрикции
В данном практикуме мне предстояло изучить специфичность эндонуклеаз рестрикции бактерии Pasteurella multocida substr. multocida.
Для этого с сайта NCBI был скачан её геном в fasta-формате, а из указанной в задании директории был скопирован файл со всеми известными рестриктазами второго типа из базы данных REBASE.
Список с последовательностями сайтов узнавания для рестриктаз был создан следующей командой:
cut -f 5 TypeII_REs.tsv | sort -u | grep -Ev "Recognition" > sites.txtОтдельно были удалены "сомнительные" сайты - "C" и "-". Осталось всего 206 сайтов После оценивалась представленность этих сайтов в геноме бактерии. Для этого использовалась команда:
cbcalc -s sites.txt --burge -o result.tsv sequence.fastaИз получившегося result.tsv с помощью pandas выбраны сайты, для которых значение observed/expected минимальное (точнее, для которых оно не превышает 0.8)
df=pd.read_csv('result.tsv', sep='\t') df2=df[df['O/E ratio (BCK)']<=0.8] print(', '.join(df2['Site'].tolist()))Таковых рашлось 13 штук, минимальное значение O/Е составило 0.273 для сайта GGCC. Полный список:
CATATG, CCNGG, CCWGG, CTAG, CTTAAG, GAATTC, GACGTC, GCGGCCGC, GGCC, GTATAC, GTCGAC, GTMKAC, TTATAA
После этого по исходному файлу с рестриктазами был проведен поиск ферментов, специфичных к данным сайтам, найденных в живых организмах. Ими оказались:
AatII, BbrUII, BfaIA, BfaIB, BhaII, BspRI, BsuRI, CbeI, Cce743II, CchI, DsaV, Ecl18kI, Eco128I, EcoRI, EcoRII, EsaWC1I, FnuDI, HaeIII, HgiDII, Kpn2kI, LlaMI, LraI, MjaI, MthTI, MthZI, MvaI, NgoAII, NgoPII, NgoSII, PhoI, PspGI, RflFI, RsrI, SalI, SdeAII, SelPI, SsoI, SsoII, StyD4I, SuaI, Tvu2HI, UbaLAI, Van91II, XamI
Результат был получен таким кодом в питоне (продолжение предыдущего):
df=pd.read_csv('TypeII_REs.tsv', sep='\t') df3=df2[['Site','O/E ratio (BCK)']] df4=df[(df['Recognition site'].isin(df3['Site']))& (df['Putative']=='no')] print(', '.join(df4['#:REBASE name'].tolist()))