Skip to content

NLP-Final-Projects/SSPP

Repository files navigation

پیش‌بینی ساختار ثانویه پروتئین (SSPP)

این پروژه از مدل‌های پردازش زبان طبیعی (NLP) و یادگیری ماشین برای پیش‌بینی ساختار ثانویه پروتئین‌ها با استفاده از داده‌های توالی پروتئین‌ها بهره می‌برد. در این پروژه از مدل‌های مبتنی بر معماری Transformer برای پیش‌بینی ساختارهای آلفا هلیکس، بتا شیت و کویل‌ها استفاده شده است.

مقدمه

پروتئین‌ها در ساختارهای متنوعی شکل می‌گیرند که تأثیر مستقیمی بر عملکرد زیستی آن‌ها دارد. ساختار ثانویه پروتئین‌ها شامل آرایش‌های موضعی مانند α-هلیکس و β-ورق‌ها است. هدف این پروژه، توسعه روشی مبتنی بر یادگیری عمیق برای پیش‌بینی دقیق این ساختارها است.

اهداف پروژه

  • استفاده از تکنیک‌های NLP و مدل‌های Transformer برای پیش‌بینی ساختار ثانویه پروتئین‌ها
  • تحلیل توالی‌های پروتئینی و استفاده از داده‌های متنی برای بهبود دقت پیش‌بینی
  • مدل‌سازی پیچیدگی ارتباطات موجود در توالی‌های پروتئینی

مراحل پروژه

  1. جمع‌آوری داده‌ها:

    • استخراج داده‌های مرتبط با پروتئین‌ها از پایگاه‌های داده UniProt و PDB
    • جمع‌آوری مقالات مرتبط از PubMed و استخراج خلاصه‌ها
    • پردازش اطلاعات به فرمت Q8 با استفاده از ابزار DSSP
  2. پیش‌پردازش داده‌ها:

    • فیلتر کردن و نرمال‌سازی داده‌های متنی
    • حذف داده‌های تکراری و انجام فرآیندهای Lemmatization و Tokenization
    • ترکیب داده‌ها در قالب یک فایل CSV نهایی برای آموزش مدل
  3. آموزش مدل:

    • پیاده‌سازی مدل Encoder-Decoder مبتنی بر T5 کوچک
    • تولید برچسب‌های Q8 با استفاده از توالی‌های پروتئینی و داده‌های متنی
    • استفاده از تکنیک‌های پیشرفته مانند batch normalization برای بهینه‌سازی مدل
  4. ارزیابی مدل:

    • ارزیابی دقت مدل با استفاده از معیارهایی مانند فاصله Edit Distance نرمال‌شده
    • تحلیل نتایج برای بررسی میزان overfitting و بهبود دقت خروجی مدل

چالش‌ها و راه‌حل‌ها

  • چالش‌های جمع‌آوری داده‌ها: حجم بالای داده‌ها و زمان‌بر بودن فرآیند جمع‌آوری و پردازش
  • چالش‌های پیش‌پردازش: وجود تفاوت‌های زیاد در طول متن‌ها و نیاز به نرمال‌سازی دقیق
  • چالش‌های آموزش مدل: نیاز به منابع پردازشی قوی‌تر برای کاهش زمان آموزش و بهبود دقت مدل

نتایج

  • مدل توانست برچسب‌های Q8 را با دقت مناسبی پیش‌بینی کند.
  • بهبودهای آتی شامل افزایش داده‌های ورودی و استفاده از منابع پردازشی قوی‌تر برای بهینه‌سازی مدل و بهبود نتایج نهایی خواهد بود.

برنامه‌های آینده

  • آموزش مدل با استفاده از داده‌های بیشتر و منابع پردازشی قوی‌تر
  • بررسی مدل‌های پیچیده‌تر و تحلیل نتایج در شرایط مختلف برای بهبود دقت و تعمیم‌پذیری

About

Secondary Structure of Protein Prediction

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published