Для последовательности с ID=C4Z088 проведены итерации PSI-Blast с порогом E-value 0.005. Это белок Probable septum site-determining protein MinC из организма Eubacterium eligens ATCC 27750

Идентификатор белка: C4Z088
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 162 Q2P036.1 0.004 Q5F5V4.1 0.005
2 188 O25693.2 1,00E-09 A7H8E6.1 0.049
3 188 Q9ZM51.1  1,00E-11 A7H8E6.1 0.011
4 188 Q9ZM51.2 5,00E-13 A7H8E6.2 0.015
5 188 Q9ZM51.3 2,00E-13 A7H8E6.3 0.019

2. Эндонуклеазы рестрикции

В данном практикуме мне предстояло изучить специфичность эндонуклеаз рестрикции бактерии Pasteurella multocida substr. multocida. Для этого с сайта NCBI был скачан её геном в fasta-формате, а из указанной в задании директории был скопирован файл со всеми известными рестриктазами второго типа из базы данных REBASE.
Список с последовательностями сайтов узнавания для рестриктаз был создан следующей командой:

  cut -f 5 TypeII_REs.tsv | sort -u | grep -Ev "Recognition" > sites.txt 
Отдельно были удалены "сомнительные" сайты - "C" и "-". Осталось всего 206 сайтов После оценивалась представленность этих сайтов в геноме бактерии. Для этого использовалась команда:
  cbcalc -s sites.txt --burge -o result.tsv sequence.fasta
Из получившегося result.tsv с помощью pandas выбраны сайты, для которых значение observed/expected минимальное (точнее, для которых оно не превышает 0.8)
df=pd.read_csv('result.tsv', sep='\t')
df2=df[df['O/E ratio (BCK)']<=0.8]
print(', '.join(df2['Site'].tolist()))
Таковых рашлось 13 штук, минимальное значение O/Е составило 0.273 для сайта GGCC. Полный список:
CATATG, CCNGG, CCWGG, CTAG, CTTAAG, GAATTC, GACGTC, GCGGCCGC, GGCC, GTATAC, GTCGAC, GTMKAC, TTATAA

После этого по исходному файлу с рестриктазами был проведен поиск ферментов, специфичных к данным сайтам, найденных в живых организмах. Ими оказались:
AatII, BbrUII, BfaIA, BfaIB, BhaII, BspRI, BsuRI, CbeI, Cce743II, CchI, DsaV, Ecl18kI, Eco128I, EcoRI, EcoRII, EsaWC1I, FnuDI, HaeIII, HgiDII, Kpn2kI, LlaMI, LraI, MjaI, MthTI, MthZI, MvaI, NgoAII, NgoPII, NgoSII, PhoI, PspGI, RflFI, RsrI, SalI, SdeAII, SelPI, SsoI, SsoII, StyD4I, SuaI, Tvu2HI, UbaLAI, Van91II, XamI

Результат был получен таким кодом в питоне (продолжение предыдущего):
df=pd.read_csv('TypeII_REs.tsv', sep='\t')
df3=df2[['Site','O/E ratio (BCK)']]
df4=df[(df['Recognition site'].isin(df3['Site']))& (df['Putative']=='no')]
print(', '.join(df4['#:REBASE name'].tolist()))