-
Notifications
You must be signed in to change notification settings - Fork 0
/
4.py
22 lines (16 loc) · 8.61 KB
/
4.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import re
with open('Vibrio_cholerae.txt', 'r') as file:
Vibrio_cholerae_Genome = file.read().rstrip()
def find_positions(Pattern, Genome):
pos = []
for i in range(len(Genome) - len(Pattern)):
if Genome[i: i+len(Pattern)] == Pattern:
pos.append(i)
return pos
# print(find_positions('ATAT','GATATATGCATATACTT'))
Pattern = 'AGGATGAAG'
Genome = 'TGAAGGATGATGCCAGGATGACGACAGGATGATAAGTTATCGTAGGATGAAGGAGGATGAAGGATGATTGCGGCCCCAAGGATGATAGGATGAAGGATGAAAGGATGAAGGATGAAGGATGATTCCAGGATGACACACCAGGATGACCCTATCAGGATGACAGGATGAACGGGGACAGGATGATAGGGAGGGAGGATGATAGGATGAGGAGGATGATCAAGGATGAAGGATGAAACAGGATGACTGAGGATGAGTAGCATAGGATGAAGGATGAAGGATGAGAGGATGAAGGATGAGTGAGGATGAAGGATGAAGGATGAAAGGATGACAGGATGAAGGATGATAGGATGATCAGGATGAGTGACAGGATGATAAGGATGAAGGATGAGAAAGGATGAAGGATGAGCAGGATGAAGGATGAACGCTGAGGATGAAGAGGATGAAGGATGAAGGATGAAGGATGAAAAAGGATGACATGGGCCTGAGGATGATGTAGGATGAAAGTCATCAATAGGATGATAATGCAGGATGAGCACAACGAGGATGAAGGATGAAGGATGACAGGATGAAGGATGAAGGATGAAGGATGACTGCAGCGATTTAGGATGATCCTAGGATGATAGGATGAAGGATGACAGGATGAGTTGTGACGAGGATGAGAGGATGAGGAGGATGAGAAAGCTAGGAGGATGAAGGATGACAATCATTAGGATGACATAGAGCGGTCGAGAGGATGAAGGATGAACTGAGGATGACAGGATGATGCTTTTATTAGGATGAAGGATGAAGGATGAAAGGATGACCAGGATGATAGGATGAAGGATGAGGACAGGATGAGAACAGGATGAAACAGGATGATAAGGATGAAGTTCGTGACCAGGATGAAAGGATGAAGGATGAAGGATGAGGGAGGATGAAGGATGAAGGATGAATAGGATGACCTCGGAAGGATGATACGAAGGATGAAGGATGATTTAAGGATGAAGGATGATCAGGATGACTCTAGGATGAGAGGATGATAGGATGAGAGGATGAGTTCAGTGAGGATGATAGGATAGGATGACCAGGATGAACTTCGCGTACACAGCAGGATGACAGGATGAAGGATGACTAGGATGACCAGGATGACGAGGATGAGAGGATGATCAGGATGAGAGGATGAGAGGATGAGCAGGATGAAGCGTGTTAGGATGATCCAGGATGAAAAGGATGACAGGATGAAGGATGAAGGATGACGAGGATGAAGGATGACCTAGTGAGGATGAAGGATGAAGGATGATAAGGATGAAAGGATGACAGGATGAAGGATGATTAGGATGAAGGATGAAGGATGATAGGATGACTAAAGGATGAAGGATGACTAGGATGACGAGGATGAAGGATGATCAGGATGAAGGATGATTACGCTAGGATGAGAAGGATGACATAGAACACAGGATGAAGGATGAAGGATGATCTGAGGATGAAGGATGAAGGATGAAGGATGATAGGATGAGTAGGATGACAGGATGATCAGGATGACAGGATGAAAGGATGAAGGATGAAGGATGAAGAGGATGAGCTTAAGGATGAAGGATGAAGGATGATTCCCCGTAGAGGATGACCCAGGATGATCAGGATGAAAGTAGGATGATGAGTGAGGATGAAGGATGAGTCAAGAAGGATGACCCCAGGATGATATAAGGAAGGGGCAGGATGAAGGATGATCAAGGATGATAGAGGATGACGAAGGATGAGGTGCAGGATGACAGGATGACGGGAGGATGATTACAGGATGATCAGGATGAAGGATGAAGGATGACCGTAAGAGGATGAAAGAAGGATGAGAAGGATGACCAGGATGAAAAGGATGACATGAGGATGACTCAGGATGAAGGATGAAAGGATGATGGTAGGATGACGAGGATGATAGGATGAAGGATGAAGGATGACAGGATGAAGGATGATCTGGAGGATGAGGAGGATGATGTCGAGGATGATAGGATGAGGGAGGATGACGAGGATGAACGACAGGATGAAGGATGAAAGGATGATACAGTGAGGATGACAGGATGAGCAGATATCGAGTACTGAGGTGCACAGGATGAAGGATGAGCGTAGGATGAATTAGGATGAAGGATGAAGGATGAAAGGATGAAGGATGAAGGATGAGTAGGATGATGAGGATGACCTGGAGGATGAAGGATGATAGGATGAAGGATGAACTTAAAAGGATGAAGGATGAATAGGATGATAGGATGACAGGATGAAGGATGACAGGATGAGAAAGAGGATGAGAGGATGAAACTAGGATGATCTGTATAACAACCGAGGATGAGAGTATACTGTCTTAGATAGGATGAGATAATAGGATGATTAGGATGACTTAGAGGATGACGAGGATGAGGAGGATGAAGGATGAAGGATGAAGGATGAAGGATAGGATGACTTAAATGAGGATGAGAGGATGACGAGGATGAATCAGGATGAGCAAGGATGACGAGGATGATTGAGGATGAGGTTAAGGATGACTTAGGATGAATCTCGTAGAGGATGAACAGGATGAAGGATGAAGGATGAACCACAGGATGACAGCGGATCGTAGAGGATGACAGGATGAAAAGGATGACGAAAAGGATGAAGGATGAGTTTGGTAGGATGAAGGATGACAGGATGAACGTGATATAGGATGAGATTAAGGATGAAGGATGAATATAACTAAACAGGATGACTTGAGGATGATTAGGATGAAGGATGACAGGATGACAAGGATGAAACTTGAAGGATGATAGGATGACAGGATGAGGGAAGGATGAAAGGATGAAGGATGATAGGATGAAGGATGAGGAGGATGAAGGATGAGGAGGATGACAGTCGCTCAGGATGAAGGATGACGAGAGGAAGTACAGGATGAGCAGGATGAAGGATGAAGGATGAAGGATGAGCAGGATGAAAGGATGAAGGATGAACTCAGGATGACGTCAGGATGACTAGGATGATAGGATGAAGGATGAGATAGTAAGGATGAAGGATGAGCCCACCATCTCAGGATGAGTAGGATGAAGGATGAAGGATGATAAGGATGAGAGGATGAACAGGATGAGTAGGATGAAGGATGAAGGATGAAAAAGGATGAAGGATGATAGGATGAAACCGTCCACTCGTTTAGGATGAAGGATGAAGGATGAAAAGGATGAAGGATGATTGGAGGATGAAGGATGAAGGTCGAGGATGAAGGATGAAGGATGAAAGGATGACTTTCAGGATGAAAACTAGGATGAAGGATGACCCCAGGATGATGTCTTTATCTGAAAAGGATGATAACTAGGATGAGAGGATGATTAGGATGATAATAGGATGAGAAAGGATGAAGGATGAAGGATGAAAAGAGGATGACCAGGATGAAGGATGAAGAAAGGATGAAGGATGACGCAGGATGAGGCAGGATGAGTAGGATGAAGGATGAGAAGACAGGATGACTTACAGGATGAGAAGTAAGGATGAAGGATGATAGGATGAAGTAGGATGAAGGATGAGGAGGATGAAGGATGAAGGATGACCGCGACAGGATGAGACAAGGATGATGGAGGATGAATTTTTGCGAGGATGAAGGATGACTTGTAGGATGAATAGGATGAAGGATGACGCGTGATCTTAGGATGAAGGATGATGAGGATGAAAGGATGAAGGATGAAGGATGACTTGCCGGTAGGATGACCTCGGGTGCAGGATGATGGTAAGGATGAAGCAGGATGAAGGATGAACCTATAAGGATGAGTGGGAAGGATGAGTAAGGATGACGTAGGATGAAAGGATGACAGGATGAGGAGAGGATGAAAACAGGATGATAAGGATGAAGGATGAATTCAGGATGAGAGGATGACGAGTCTTTCCAGGATGAAAGAGGATGAAGGATGAAGGATGAAACCAGGATGAAGGATGATAAGGATGAGAGGATGACAGGATGAAGGATGACCAGGATGAAAGGATGAAAGGATGACCCAGGATGATTGAGGATGAACAGGATGAAGTTAGGATGACGAGGATGAAACGAGGATGAAGGATGAGATGCAGGATGAAGATCCTTTTTACCGTAGGATGACGAGGATGATGTAGGATGAAGGATGAAGGATGACGTAGGATGACGAAAGGATGAAGGATGAAAGGATGAAAAGGATGAAGAGGATGACGGCAGGATGAAGGATGACCCCGTCCTTAGGATGAAGGATGACCGAGGATGAACTGCAGGATGAAGGATGAATAAAGGATGATAAAATGGGGGTAGGATGAAGGATGAAGGATGACTAGGATGAGCAGGATGACAGGATGAAGGATGAAAATTGAGGATGAGAGGATGATCTAGGATGATAGGATGAAAGAGGATGACAAGGATGAAGGATGAAGAGGATGAGGGGAGGATGACCACGCAGGAAAGGATGATTCACCTAGACCAGGATGAAGGCAGAGGATGACAAAAGGATGATGTAGGATGAAGGATGAAGGATGACACAGAAGGATGAAGGATGATTAGAGGATGATATTGCGACAAAGGATGAGCAGGATGAAGGATGAACGATTATGTCAGGATGAAGGATGAGCAGGATGAAGGATGACAGGATGAAGGATGAAGGATGAGAGGATGACGCAGGATGAAAAGGATGATAGGATGAAGGATGAGGAGGATGACGTTGTAGGATGACTCAAGGATGAAGGATGAAAGGATGATTAGGATGAGAGGATGAGAGGATGATACCCTAGGATGAGGAGGATGACATTAGTGCAGGATGACCGCGCCGAGGATGACCATCGGAGGATGACGGCGTTGCCTAGGATGACCAGTCAGGATGACAGGATGAAGGATGAGCCTAGGATGAGAGGATGAAGGATGACAGGATGAGCGTGCAGGATGAGAGGATGAAGAGGATGAAGGATGATGCAGGATGACAGGATGAGGTACTAGGATGAACAGGATGAAGGATGACTGTGAGAGGATGAGAAGGATGATATTAAGGATGACAGGATGATAGGATGATAAGGATGAAGGATGAGAGGATGAAGGAGGAGGATGATGAGCACAGGATGACAAGGATGATAGTAGGATGATGGAGGATGACGCGGAGGATGACAGGATGATAGGATGAAGGATGAGGTAGGATGAACGCATAGGATGAGAGGATGAACCAGGATGACAGGATGACAGGATGAAGGATGAAAGGATGAGCTCCAGGATGAGTTGTCCAGGATGAAGGATGAGCTCTTAGGATGAAGAGAGGATGAAGGATGAAGGATGAAACAGGATGACAGGATGAAGGATGAAAGGATGAGGTAGGATGAAAGGATGACCAGGATGAAGCCCTGGAGGATGAATAGGATGAAGGATGATTAGGATGAAACACGAGGATGATGAAGTAGGATGACCCAGGATGAAGAGGATGAAAAGGATGACTTAGCTGGAGGAAAAGGATGAATAAGGATGAAGGATGATTTAAGGATGATAGGATGAAAGGATGACACAAGGATGATAGGATGAGAGGATGAACAAAGGATGACGGCACAGGATGAAGGATGAGCAGGATGAACCGAAGGATGAAGGATGAAGGATGAAGGATGACTCGGTCCAAACCTGAGAGAAGCAGGATGAAATAGGATGAGCCATTGTATGGAGGATGATTGAGCAAAGGATGACAACAGGATGAAGGATGATAGTTCAGGATGACGCAGAAGGATGACCGTGCAGGATGAACCAGGATGACCAGGATGAAGGATGAGCTAGGATGAACAGGATGAGTGAAGGATGAGAGGATGAAGGATGAAGGATGATTCGAGTATGAGGATGATAGGATGAAAAGGATGAAGAGGATGATTCGATAGGATGAAAGGATGAGAGCAGGATGATAGTAGCGTCGCTCGAGGATGATTAAGGATGAAGGATGAGAGGATGAGAAGGATGAAGGATGATGTAGGATGAGAGCCCGCAGGATGATAGGATGAATAGGATGAAGGATGAGCGTAGGATGACAGAGGATGAACTCAGGATGACACTTGGAGTCAGGATGATCTAGGATGAAGGATGAAAGGATGACGAGGATGAAGGATGAAACTGAGAGGATGATCAGGATGATTACGAGAGGATGAAGGATGAAGCTAGGATGAGAGGATGAAGGATGAGAAGGATGAAGGATGACAAGGATGAAGGATGACACACAACTAGGATGAAGCAGGATGAAGGATGACAGGATGAGACAGGATGATTAGGATGAAGGATGACAGGATGAGATTAAGGATGAGTAGGATGAGTTAGGATGAGAGGATGATCACTATGAGGATGAAGCAGGATGACAAGGATGAAGGATGATTGACGAAGGATGAAGGATGAAGGATGATTAATGGAGGATGAAGGATGAAGGATGAGATAGGATGAAGGATGAGAGGATGAAGGATGAAGGATGATTAGGATGATTCGGATCGAGGATGAGTAGGATGATAGGATGAGCAAGGATGAAGAGGATGAGGGGGGCTGTGCAGGATGAGTTAGGATGAGACTGTCAGGATGAGAGGATGAAGGATGAAGGATGACGAGTAGGATGACTCAGACAAACAGGATGAGAAGGATGAAGGATGAAGGATGAAAGGATGAAGGATGAAGGATGATTTGAAGCAGGATGACACAGGATGAAGAGGATGATAGGATGACTATTCGAGGATGAGGGCCCAGGATGACAGGATGAGATAGGATGAAGGATGAACAGGATGAAGGATGACGCCAGGATGAAGGATGAAAGGATGACAGGATGACCTAGGATGAAGCGAGAAGGATGAGCTAGGATGAGAGGATGAAGGATGAAGGATGAAGAAGGATGACCAGGATGAAGGATGAATTCACAAGGATGAAGGATGAAGGATGACCGCGAGGATGAAGCAGGATGAAGGATGAAGGATGATGTTGCCTGACAGGATGAGGATAGGATGACTGGTTAGGATGAAGGATGAGTATGTAGGATGAAGGATGACAGGATGAACTATCGAGGATGAAGGATGAATGAGGATGAAAAGGATGAAGGATGACATAGGATGAAGGATGATAGGATGATTAGGATGAGCAGGATGAAGGATGAAGGATGAAGGATGACCCCAAGCAGGATGAAGGATGACAGAGGATGAATAGGATGAGAGGATGAGAAAAGAGGATGAAGGATGACTTGGTATAGGATGATATGAGGATGACATACTTCACGTCGCTTAGGATGATAGGATGAAGGATGAAGGATGAAGGATGAACAAGGATGAGAGGATGAAAGGATGAAGGATGACTCGAGGATGAAGGATGACAGGATGATAAAGGATGACAGGATGAAATAAGGATGATGAGGATGAAGGATGAGGTAGGATGAAGGATGACCAGGATGAAGGATGAGAGAGGATGATGCTGAGGATGATTAAGGGACAGGATGAAGGATGAGCCGTCTCCCTAGGATGAAGGATGAAGGATGACAGGATGACCTAAGGATGAAGGATGAAGGATGACTCAGGATGAAGGATGACCTAGGATGAAGATTCTAGGATGATAGGATGATTAGGATGATAAGGATGAAGGATGAAATAGGATGAATCGCCTTACCCCTCAAAGGATGAAGGATGACAGGATGAAGGATGAAAAGGATGACCCACAGGATGAGGAACCAGGATGAAGGATGAGGAGGATGAAGGATGATGAAGGATGAATGAGGATGAACGAGGATGAAAGGATGAACTCCTCAGGATGAACGGAAAGGATGAGAGGATGAAGGATGAGAACTGGGCAGGATGATAGGATGAACAAGGATGAATGTTTGAAGGATGAAGAGGATGAAGGATGATGTAGGATGAGAAGGATGAGCAAGGATGATCTAAGGATGAAAGGATGAGAAGGATGAGCAGGATGATTCAGGATGAAAAGAGGATGAAAGGATGATTAGGATGACTAATGAGGATGAATAGGATGACCAGGATGAAAGGATGACCAGGATGACAGGATGACCAAGGATGATGTAGGATGAAGGATGATAAGTGGTAGGATGAATGCATCTAGGATGAAGCAATAGGATGACGATAGGATGATAGTAGGATGAAGGATGAGAAGGATGAAAAACAGGAGGATGAAAGGATGATCCTGCAAGGATGACGAGGATGACGCAGGATGAGATTCGTGCGAAGGATGAAACATAGCCTCCTTCCACAGGATGATAGGATGACGTAGGATGAGTCGAGGATGACGGAAGGATGATAAGGATGAGCGATAGGATGAAGGATGAAGGATGAAGGATGATCCGGTGG'
res = find_positions(Pattern='CTTGATCAT',Genome=Vibrio_cholerae_Genome)
print(res)
print(f"Length: {len(res)}\n")
for i in res: print(i)