پیش‌بینی ساختار ثانویه پروتئین (SSPP)

این پروژه از مدل‌های پردازش زبان طبیعی (NLP) و یادگیری ماشین برای پیش‌بینی ساختار ثانویه پروتئین‌ها با استفاده از داده‌های توالی پروتئین‌ها بهره می‌برد. در این پروژه از مدل‌های مبتنی بر معماری Transformer برای پیش‌بینی ساختارهای آلفا هلیکس، بتا شیت و کویل‌ها استفاده شده است.

مقدمه

پروتئین‌ها در ساختارهای متنوعی شکل می‌گیرند که تأثیر مستقیمی بر عملکرد زیستی آن‌ها دارد. ساختار ثانویه پروتئین‌ها شامل آرایش‌های موضعی مانند α-هلیکس و β-ورق‌ها است. هدف این پروژه، توسعه روشی مبتنی بر یادگیری عمیق برای پیش‌بینی دقیق این ساختارها است.

اهداف پروژه

استفاده از تکنیک‌های NLP و مدل‌های Transformer برای پیش‌بینی ساختار ثانویه پروتئین‌ها
تحلیل توالی‌های پروتئینی و استفاده از داده‌های متنی برای بهبود دقت پیش‌بینی
مدل‌سازی پیچیدگی ارتباطات موجود در توالی‌های پروتئینی

مراحل پروژه

جمع‌آوری داده‌ها:
- استخراج داده‌های مرتبط با پروتئین‌ها از پایگاه‌های داده UniProt و PDB
- جمع‌آوری مقالات مرتبط از PubMed و استخراج خلاصه‌ها
- پردازش اطلاعات به فرمت Q8 با استفاده از ابزار DSSP
پیش‌پردازش داده‌ها:
- فیلتر کردن و نرمال‌سازی داده‌های متنی
- حذف داده‌های تکراری و انجام فرآیندهای Lemmatization و Tokenization
- ترکیب داده‌ها در قالب یک فایل CSV نهایی برای آموزش مدل
آموزش مدل:
- پیاده‌سازی مدل Encoder-Decoder مبتنی بر T5 کوچک
- تولید برچسب‌های Q8 با استفاده از توالی‌های پروتئینی و داده‌های متنی
- استفاده از تکنیک‌های پیشرفته مانند batch normalization برای بهینه‌سازی مدل
ارزیابی مدل:
- ارزیابی دقت مدل با استفاده از معیارهایی مانند فاصله Edit Distance نرمال‌شده
- تحلیل نتایج برای بررسی میزان overfitting و بهبود دقت خروجی مدل

چالش‌ها و راه‌حل‌ها

چالش‌های جمع‌آوری داده‌ها: حجم بالای داده‌ها و زمان‌بر بودن فرآیند جمع‌آوری و پردازش
چالش‌های پیش‌پردازش: وجود تفاوت‌های زیاد در طول متن‌ها و نیاز به نرمال‌سازی دقیق
چالش‌های آموزش مدل: نیاز به منابع پردازشی قوی‌تر برای کاهش زمان آموزش و بهبود دقت مدل

نتایج

مدل توانست برچسب‌های Q8 را با دقت مناسبی پیش‌بینی کند.
بهبودهای آتی شامل افزایش داده‌های ورودی و استفاده از منابع پردازشی قوی‌تر برای بهینه‌سازی مدل و بهبود نتایج نهایی خواهد بود.

برنامه‌های آینده

آموزش مدل با استفاده از داده‌های بیشتر و منابع پردازشی قوی‌تر
بررسی مدل‌های پیچیده‌تر و تحلیل نتایج در شرایط مختلف برای بهبود دقت و تعمیم‌پذیری

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
Phase 1 - Data Collection		Phase 1 - Data Collection
Phase 2 - Preprocessing Data		Phase 2 - Preprocessing Data
Phase 3 - Model Training		Phase 3 - Model Training
Phase 4 - Simplified Test		Phase 4 - Simplified Test
report		report
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

پیش‌بینی ساختار ثانویه پروتئین (SSPP)

مقدمه

اهداف پروژه

مراحل پروژه

چالش‌ها و راه‌حل‌ها

نتایج

برنامه‌های آینده

About

Releases

Packages

Contributors 3

Languages

NLP-Final-Projects/SSPP

Folders and files

Latest commit

History

Repository files navigation

پیش‌بینی ساختار ثانویه پروتئین (SSPP)

مقدمه

اهداف پروژه

مراحل پروژه

چالش‌ها و راه‌حل‌ها

نتایج

برنامه‌های آینده

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages