جامعه متن باز پردازش متن و کلان داده

ریپازیتوری‌ها

Rakhshai (Graph-based NLP)

Rakhshai یک کتابخانهٔ پژوهشی برای تبدیل متن‌های فارسی به ساختارهای گرافی و تحلیل آن‌ها با روش‌های شبکه‌های عصبی گرافی است. این ابزار با الهام از TextGCN/GCN/GraphSAGE طراحی شده و برای کارهایی مثل طبقه‌بندی متن، خلاصه‌سازی مبتنی بر TextRank، توصیه‌گر محتوا، تشخیص نفرت‌پراکنی و تحلیل شبکه‌های اجتماعی به‌کار می‌رود. مستندات کامل و مثال‌ها در docs/ و تست‌ها نیز فراهم است.

زبان: Python

مجوز: MIT

ساخت گراف‌های متنی: هم‌رخدادی، TextGraph، گراف سند و وابستگی
مدل‌ها: GCN و GraphSAGE (به‌همراه نسخهٔ آزمایشی GAT)
وظایف آماده: طبقه‌بندی متن، خلاصه‌سازی TextRank و توصیه‌گر محتوا
تحلیل وابستگی با Stanza (اختیاری)
CLI و کتابخانهٔ پایتون (دستور rgnn-cli)

توسط تیم توسعه رخشای

ورود به ریپازیتوری

naghz

نَغز یک کتابخانهٔ سبک برای پردازش زبان طبیعی فارسی است که به‌صورت کتابخانهٔ پایتون و ابزار خط فرمان ارائه می‌شود. امکانات اصلی آن شامل نرمال‌سازی، توکنیزه‌کردن، تبدیل محاوره به رسمی، تحلیل احساس، استخراج موجودیت‌های نامدار و خلاصه‌سازی استخراجی است. همچنین پشتیبانی اختیاری از برچسب‌گذاری نقش کلمات (POS) و تجزیهٔ وابستگی با مدل‌های Stanza دارد.

زبان: Python

مجوز: MIT

نرمال‌سازی و توکنیزه‌کردن متن فارسی
تبدیل محاوره به رسمی (colloquial → formal)
تحلیل احساس، NER و خلاصه‌سازی استخراجی
POS و پارس وابستگی با Stanza (اختیاری)
CLI و کتابخانهٔ پایتون (دستور naghz)

توسط تیم توسعه رخشای

ورود به ریپازیتوری

rakhshai-Cyrus-AI

هوش مصنوعی Cyrus یک دستیار پرسش و پاسخ فارسی مبتنی بر جنگو است که متن ورودی را نرمال‌سازی می‌کند، متون مرتبط را با استفاده از ترکیبی ترکیبی از جستجوی برداری FAISS و جستجوی واژگانی BM25 بازیابی می‌کند و با مدل LLaMA پاسخ تولید می‌کند.

زبان: Python

مجوز: MIT

جستجوی ترکیبی FAISS + BM25
تولید پاسخ با مدل محلی LLaMA
API پرسش‌و‌پاسخ: /api/ask
بی‌نیاز از سرویس‌های ابری (اجرای آفلاین)

توسط تیم توسعه رخشای

ورود به ریپازیتوری

rakhshai-Persian-NLP-Django-api-Service-Beta

این پروژه یک سرویس ساده برای تحلیل متون فارسی است که با استفاده از Django و Django REST Framework پیاده‌سازی شده است. برای پردازش متن از کتابخانه‌ی Hazm جهت نرمال‌سازی و از رویکردهای سبک و لغت‌محور برای تحلیل احساس و تشخیص موجودیت‌های نامدار استفاده شده است. این رویکرد تکیه‌ای بر مدل‌های سنگین یادگیری عمیق ندارد و در نتیجه امکان اجرا به صورت کاملاً آفلاین را فراهم می‌کند. همچنین امکان پردازش فایل‌های بزرگ به‌صورت غیـرهـمگام با Celery و Redis فراهم شده است.

زبان: Python

مجوز: MIT

نرمال‌سازی فارسی با Hazm
DRF APIها: /api/analyze/، /api/answer/، /api/jobs/<id>
Celery + Redis برای پردازش غیـرهـمگام فایل‌های بزرگ
قابلیت اجرای آفلاین؛ بدون اتکا به مدل‌های حجیم یادگیری عمیق

توسط تیم توسعه رخشای

ورود به ریپازیتوری

Rakhshai-Drug-Interaction-LabelCheck

این پروژه ابزاری برای بررسی تداخلات دارویی و تطبیق برچسب‌های دارویی است. هدف آن ارائه‌ی سیستمی هوشمند جهت تحلیل داده‌های دارویی، شناسایی هشدارها، و کمک به داروسازان و پزشکان برای تصمیم‌گیری ایمن‌تر است. این سرویس با استفاده از پایتون و کتابخانه‌های علمی مانند Pandas و scikit-learn توسعه یافته و قابلیت ارتباط با پایگاه داده‌های استاندارد دارویی را دارد.

زبان: Python

مجوز: MIT

تشخیص تداخلات دارویی بر اساس داده‌های استاندارد و منابع علمی
بررسی و تطبیق برچسب‌های دارویی (Label Check)
تحلیل داده‌ها با استفاده از Pandas و scikit-learn
قابل توسعه برای ارتباط با API‌های دارویی خارجی و پایگاه‌های داده سلامت

توسط تیم توسعه رخشای

ورود به ریپازیتوری

نکته: شما هم می توانید به جامعه بازپردازش بپیوندید

دربارهٔ جامعه

«باز پردازش» یک جامعهٔ متن‌باز برای توسعهٔ ابزارها، اسکریپت‌ها و مدل‌های پردازش زبان فارسی و کلان‌داده است. هدف ما تسهیل همکاری میان متخصصان و فعالان بخش خصوصی، پژوهشگران و علاقه‌مندان تا اکوسیستمی پایدار برای فناوری فارسی بسازیم.

این جامعه در شهریورگان (چهارم شهریور ماه) ۱۴۰۴ خورشیدی کار خود را به صورت رسمی شروع کرد .

این جامعه وابسته به شرکت آریا هامان مهر پارسه و تیم توسعهٔ هوش مصنوعی ایرانی رخشای است.

پشتیبانی فنی و نظارتی جامعه

این جامعه توسط گروه توسعه دهندگان هوش مصنوعی ایرانی رخشای (شرکت آریا هامان مهر پارسه) بنیان نهاده شده است . فعالیت های انجمن در قالب فنی و مدیریتی با نظارت و پشتیبانی رسمی تیم توسعه دهندگان رخشای ادامه پیدا خواهد کرد .

هوش مصنوعی ایرانی رخشای

مدیران فعلی جامعه متن‌باز

رضا جباری ظهیرآبادی

شمشاد امیری خراسانی

صادق موحدی

اصول و سیاست‌های کلی

مأموریت

دموکراتیزه‌کردن دسترسی به ابزارها و دانش پردازش متن فارسی از طریق نرم‌افزارها و مدل‌های متن‌باز.

بی‌طرفی و استقلال

شفافیت کامل در تصمیم‌گیری‌ها؛ ادارهٔ جامعه بر اساس رأی و اجماع مشارکت‌کنندگان.

فرایندهای باز

تمامی بحث‌ها، مستندات و کدها در مخازن عمومی؛ مشارکت از طریق Pull Request و Issue.

مجوز متن‌باز و کد رفتار

انتشار پروژه‌ها با مجوزهای استاندارد (MIT/Apache-2.0 و …) و التزام به Code of Conduct حرفه‌ای.

همکاری با جامعه

برای پیوستن به جامعهٔ اوپن‌سورس و مشارکت در پروژه‌ها، رزومهٔ خود را به ایمیل زیر ارسال کنید:

join@bazpardazesh.com

ترجیحاً لینک گیت‌هاب/گیت‌لب، نمونه‌کار و حوزهٔ تخصصی خود را ذکر کنید.

support@bazpardazesh.com

برای پشتیبانی با ایمیل در ارتباط باشید.