Для последовательности с ID=C4Z088 проведены итерации PSI-Blast с порогом E-value 0.005. Это белок Probable septum site-determining protein MinC из организма Eubacterium eligens ATCC 27750

Идентификатор белка:	C4Z088

Номер итерации	Число находок выше порога (0,005)	Идентификатор худшей находки выше порога	E-value этой находки	Идентификатор лучшей находки ниже порога	E-value этой находки
1	162	Q2P036.1	0.004	Q5F5V4.1	0.005
2	188	O25693.2	1,00E-09	A7H8E6.1	0.049
3	188	Q9ZM51.1	1,00E-11	A7H8E6.1	0.011
4	188	Q9ZM51.2	5,00E-13	A7H8E6.2	0.015
5	188	Q9ZM51.3	2,00E-13	A7H8E6.3	0.019

2. Эндонуклеазы рестрикции

В данном практикуме мне предстояло изучить специфичность эндонуклеаз рестрикции бактерии Pasteurella multocida substr. multocida. Для этого с сайта NCBI был скачан её геном в fasta-формате, а из указанной в задании директории был скопирован файл со всеми известными рестриктазами второго типа из базы данных REBASE.
Список с последовательностями сайтов узнавания для рестриктаз был создан следующей командой:

  cut -f 5 TypeII_REs.tsv | sort -u | grep -Ev "Recognition" > sites.txt

Отдельно были удалены "сомнительные" сайты - "C" и "-". Осталось всего 206 сайтов После оценивалась представленность этих сайтов в геноме бактерии. Для этого использовалась команда:

  cbcalc -s sites.txt --burge -o result.tsv sequence.fasta

Из получившегося result.tsv с помощью pandas выбраны сайты, для которых значение observed/expected минимальное (точнее, для которых оно не превышает 0.8)

df=pd.read_csv('result.tsv', sep='\t')
df2=df[df['O/E ratio (BCK)']<=0.8]
print(', '.join(df2['Site'].tolist()))

Таковых рашлось 13 штук, минимальное значение O/Е составило 0.273 для сайта GGCC. Полный список:
CATATG, CCNGG, CCWGG, CTAG, CTTAAG, GAATTC, GACGTC, GCGGCCGC, GGCC, GTATAC, GTCGAC, GTMKAC, TTATAA

После этого по исходному файлу с рестриктазами был проведен поиск ферментов, специфичных к данным сайтам, найденных в живых организмах. Ими оказались:
AatII, BbrUII, BfaIA, BfaIB, BhaII, BspRI, BsuRI, CbeI, Cce743II, CchI, DsaV, Ecl18kI, Eco128I, EcoRI, EcoRII, EsaWC1I, FnuDI, HaeIII, HgiDII, Kpn2kI, LlaMI, LraI, MjaI, MthTI, MthZI, MvaI, NgoAII, NgoPII, NgoSII, PhoI, PspGI, RflFI, RsrI, SalI, SdeAII, SelPI, SsoI, SsoII, StyD4I, SuaI, Tvu2HI, UbaLAI, Van91II, XamI

Результат был получен таким кодом в питоне (продолжение предыдущего):

df=pd.read_csv('TypeII_REs.tsv', sep='\t')
df3=df2[['Site','O/E ratio (BCK)']]
df4=df[(df['Recognition site'].isin(df3['Site']))& (df['Putative']=='no')]
print(', '.join(df4['#:REBASE name'].tolist()))