ستيب فن ايه اي ستيب-اودي 2 ميني إنه نموذج كلام متكامل يجمع بين فهم الصوت، والاستدلال، والتوليد في بنية واحدة. صُمم هذا النموذج للمحادثات الطبيعية وتحليل الكلام العميق، ويتقن مهام مثل: التعرف التلقائي على الكلام، والفهم اللغوي الموازي، والمنطق السليم، والترجمة، والحوار الصوتي، مما يقلل من زمن الوصول ويقلل من الهلوسة بفضل استدعاءات الأدوات والاسترجاع متعدد الوسائط.
ما وراء النظرية، ستيب-أوديو 2 ميني إنه يتألق في المعايير العامة وسيناريوهات الحياة الواقعية: فهو يفهم اللهجات واللكنات، ويلتقط المشاعر والعروض، وهو قادر على ضبط الجرس والإيقاع والأسلوبحتى الغناء أو الراب. بالإضافة إلى ذلك، فهو يتكامل مع البحث على الويب والصوت، وهو متاح للجميع عبر GitHub وHugging Face، مما يجعل من السهل اختباره ومراجعته والتكيف مع احتياجات المنتج أو البحث.
ما هو StepFun AI Step-Audio 2 Mini
باختصار، إنها النسخة المدمجة من عائلة Step-Audio 2، نموذج صوتي متعدد الوسائط من البداية إلى النهاية جاهز للإنتاج، يجمع المهام التقليدية (ASR وTTS) مع إمكانيات وأدوات حوار متقدمة. على عكس ASR + LLM + TTS على مراحل، تصميمها الصوتي/النصي المباشر يقلل من التعقيد والزمن الكامن، مع الحفاظ على التفاصيل اللغوية الموازية (التجويد، الجرس، الإيقاع) والإشارات غير الصوتية.
وتشمل أركانها ما يلي: محادثة ذكية مع سياق طويل وحساسية عروضية، استدعاء الأداة الأصلية مع RAG متعدد الوسائط (النص والصوت) لحقن المعرفة المحدثة و تغيير جرس الباب وفقًا للمراجع المُسترجعة. هذا المزيج يقلل الهلوسة ويجعل الإجابات أكثر فائدة وطبيعية.
تم إكمال العائلة باستخدام Step-Audio 2 (سعة أعلى) والمكونات ذات الصلة بنظام Step-Audio البيئي، بما في ذلك معلمات النموذج الأساسي 130B يُستخدم للتدريب المسبق السياقي مع الصوت ونظام تحويل النص إلى كلام فعال (Step-Audio-TTS-3B). على الرغم من أن Mini لا يتطلب البنية التحتية الضخمة لجهاز 130B، إلا أنه يرث خط أنابيب البيانات التوليدية وإرشادات التحكم الصوتي الدقيقة.
الهندسة المعمارية والمفاتيح التقنية
يعتمد النظام الرمز المزدوج ومتداخلة: كتاب شفرة دلالية مكون من 1024 إدخالاً بتردد ~16,7 هرتز وكتاب شفرة صوتي آخر مكون من 4096 إدخالاً بتردد ~25 هرتز، متزامن مع النسبة الزمنية 2:3يتيح هذا التكامل على مستوى الرمز الحصول على تفاصيل أكبر في تمثيل كل من المحتوى اللغوي والملمس الصوتي في نفس الوقت.
بالنسبة للجيل، فك تشفير الصوت الهجين الذي يجمع بين نموذج مطابقة التدفق ومشفر صوتي من ميل إلى موجة. عند تدريبه باستخدام مخطط دفتر الرموز المزدوج المتداخل، يحتفظ النظام بالوضوح والدقة. طبيعية الكلام أثناء التوليف، حتى عند التحكم في العاطفة، أو السرعة، أو الأسلوب.
تعتمد هندسة البث على مراقب الذي ينسق كشف نشاط الصوت (VAD)، وتجزئة الصوت في الوقت الفعلي، ونموذج لغة الصوت التدريجي، وفك التشفير. وهو يتضمن الجيل المضاربي (تمثل حوالي 40% من الرموز) وإدارة السياق المستندة إلى النص مع ضغط 14:1، مما يساعد على الحفاظ على التماسك في الحوارات الطويلة بتكاليف يمكن إدارتها.
في التدريب الإضافي، يتم دمج SFTs مع التعرف على الكلام والتحدث مع التعزيز من خلال التغذية الراجعة البشرية (RLHF) والاستدلال سلسلة الفكر يركز على علم اللغة الموازي. هذا يُحسّن قدرة النموذج على تفسير إشارات مثل العواطف أو النغمة أو الموسيقى والرد بطريقة دقيقة وقابلة للتحكم.
التنزيل والتثبيت والاستخدام المحلي
النموذج متاح في وجه يعانق والمستودع الرسمي، مع نصوص جاهزة للاستدلال وعرض تجريبي محلي على الويب. خطوات إعداد البيئة (conda + pip) والتنزيل باستخدام Git LFS بسيطة، وعلى أجهزة الكمبيوتر الحديثة، سريع التكرار.
conda create -n stepaudio2 python=3.10
conda activate stepaudio2
pip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml
# Repositorio y pesos
git clone https://github.com/stepfun-ai/Step-Audio2.git
cd Step-Audio2
# Modelos en Hugging Face
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-2-mini
لإجراء الاختبار الأول، قم ببساطة بتشغيل البرنامج النصي المثال: الاستدلال يعمل مع الصوت والنص ويسمح لك بالتحقق من صحة تكوين البيئة دون أي تعقيدات.
python examples.py
هنالك أيضا عرض توضيحي للويب المحلي مع واجهة بسيطة تم إنشاؤها باستخدام Gradio، وهي مثالية لتقييم التفاعل الصوتي في المتصفح.
pip install gradio
python web_demo.py
العروض التوضيحية عبر الإنترنت، ووحدة التحكم، وتطبيق الهاتف المحمول
تقدم StepFun وحدة التحكم في الوقت الفعلي لاختبار النموذج من المتصفح، وكذلك مساعد متنقل مع بحث مدمج على الويب والصوت. حمّل التطبيق من المتجر، ثم افتحه، وانقر على أيقونة الهاتف في الزاوية العلوية اليمنى لتفعيل وضع الصوت.
يمكن للمجتمع الانضمام إلى مجموعة وي شات عبر رمز الاستجابة السريعة (QR code) للمناقشة ومشاركة النتائج وحلّ الأسئلة. وإذا رغبت، روابط التحميل المباشر هي كما يلي: GitHub جيثب: (الخطوة-الصوت2)، وجه يعانق (Step-Audio-2-mini) و نموذج (نموذج يحمل نفس الاسم). في بعض القوائم الخارجية، سترى تحذيرات ملفات تعريف الارتباط أو رسائل توافق المتصفح (مثل Reddit أو X)، وهو أمر شائع على منصات التواصل الاجتماعي.
- GitHub جيثب:: https://github.com/stepfun-ai/Step-Audio2
- وجه يعانق: https://huggingface.co/stepfun-ai/Step-Audio-2-mini
- نموذج: https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
أداء معياري: الفهم، واللغويات الموازية، والمزيد
في الاختبارات العامة والمنزلية، أظهر جهاز Step-Audio 2 Mini وشقيقه الأكبر نتائج المعاييرفيما يلي، نستعرض النقاط الرئيسية مقارنة بالأنظمة التجارية ومفتوحة المصدر: GPT-4o Audio، وQwen-Omni/Qwen2.5-Omni، وKimi-Audio، وOmni-R1، وAudio Flamingo 3، وDoubao LLM ASR، وغيرها.
التعرف التلقائي على الكلام متعدد اللغات (معدلات CER/WER المنخفضة أفضل)
في اللغة الإنجليزية، متوسط WER هو الخطوة الصوتية 2 في عام 3,14 بالفعل شنومكس البسيطة بمعدل 3,50، مع فرق مثل Common Voice وFLEURS وLibriSpeech (نظيف/آخر). يتفوق LibriSpeech "آخر" بمعدل 2,42 لـ Step-Audio 2، وهو أقل من البدائل المفتوحة والتجارية. الصينية، بمتوسط 3,08 (Step-Audio 2) و3,19 (Mini)، مع نتائج جيدة في AISHELL/AISHELL-2 وKeSpeech وWenetSpeech.
للسيناريوهات متعدد اللغات بالإضافة إلى ذلك، يتألق في اللغة اليابانية (FLEURS) بمعدل 3,18 (Step-Audio 2) و4,67 (Mini)، وينافس في اللغة الكانتونية (Common Voice yue). في المجموعة "الداخلية" التي تتضمن اللهجات واللهجات الصينية، ينخفض المتوسط إلى 8,85 (Step-Audio 2) و9,85 (Mini)، مع تحسن واضح في اللهجات الصعبة مثل شانغهاي (17,77 مقابل 19,30 مقارنة بالخيارات الأخرى التي تتجاوز 58).
الفهم الموازي اللغوي
في مجموعة StepEval-Audio-Paralinguistic، الخطوة الصوتية 2 يصل إلى 83,09 في المتوسط و شنومكس البسيطة ٨٠.٠٠. حسب الأبعاد: الجنس والعمر: ١٠٠/٩٦ (٢) و١٠٠/٩٤ (ميني)؛ جرس الصوت: ٨٢/٨٠؛ المرحلة: ٧٨/٧٨؛ العاطفة: ٨٦/٨٢؛ الإيقاع: ٨٦/٦٨؛ السرعة: ٨٨/٧٤؛ الأسلوب: ٨٨/٨٦؛ والصوت: ٦٨/٧٦. تُظهر القفزة النوعية مقارنةً بالأنظمة السابقة التحكم الدقيق في النغمات والمتانة الإدراكية.
الاستدلال والفهم الصوتي (MMAU)
في معيار MMAU، الخطوة الصوتية 2 يتصدر بمتوسط 78,0 (83,5 في الصوت، 76,9 في الصوت، 73,7 في الموسيقى)، بينما شنومكس البسيطة العلامة 73,2. من بين تلك التي تمت مقارنتها: Omni-R1 77,0، وAudio Flamingo 3 73,1، وGemini 2.5 Pro 71,6، وQwen2.5-Omni 71,5، وGPT-4o Audio 58,1. يُظهر هذا الاستدلال السمعي التنافسي حتى في مواجهة البدائل التجارية.
الترجمة الصوتية
في CoVoST 2 (S2TT)، يبلغ المتوسط 39,29 لـ Step-Audio 2 Mini و39,26 لـ Step-Audio 2، مع قوة أكبر في الإنجليزية→الصينية (~49). في CVSS (S2ST)، يتصدر Step-Audio 2 بمتوسط درجة 30,87، بينما يحصل Mini على 29,08؛ ويحصل GPT-4o Audio على حوالي 23,68. إجمالاً، تُعزز هذه النتائج الكفاءة اللغوية المتبادلة في النص والكلام المُولَّد.
استدعاء الأداة الأصلية
في StepEval-Audio-Toolcall (الصوت والتاريخ/الوقت والطقس والبحث على الويب)، يحقق Step-Audio 2 دقة عالية/استدعاءات مُشغِّل و١٠٠٪ في تحديد النوع/المُعامل عند الاقتضاء. على سبيل المثال، في البحث الصوتي، يبلغ متوسط مُشغِّله ٨٦.٨/٩٩.٥؛ وفي بحث الويب ٨٨.٤/٩٥.٥؛ وفي الطقس ٩٢.٢/١٠٠. بناءً على خط أساس قوي (Qwen3-32B)، يحافظ على أرصدة متينة للغاية بين المشغل والنوع والمعلمات.
المحادثة الصوتية (URO-Bench)
بالنسبة للغة الصينية (الأساسية/الاحترافية)، حصل برنامج Step-Audio 2 على 83,32/68,25 و2 Mini على 77,81/69,57. أما في اللغة الإنجليزية، فقد حصل برنامج GPT-4o Audio على 84,54/90,41 في المتوسط، لكن برنامج Step-Audio 2 يتأخر عنه بفارق كبير في الفهم والاستدلال (92,72/76,51 في U/R الأساسي و64,86/67,75 في Pro)، بينما يقدم Mini متوسطًا أساسيًا يبلغ 74,36، وهو أمر رائع بالنسبة لنظام مفتوح من النهاية إلى النهاية.
العلاقة مع Step-Audio (130B) وTTS 3B
يتضمن نظام Step-Audio البيئي موديل 130ب الذي يعمل كأساس نصي، مع تدريب صوتي مسبق مستمر في سياقه، وتدريب لاحق قائم على المهام. بفضل محرك البيانات التوليدية، يتم تصنيع ملفات صوتية عالية الجودة لتدريب وإصدار 3B TTS فعال (خطوة-الصوت-TTS-3B) مع التحكم الدقيق في التعليمات (العواطف واللهجات والأساليب).
في ASR، بالمقارنة مع المراجع مثل همس كبير-v3 و Qwen2-Audio، وتسجيل متغيرات التدريب المسبق الصوتي Step-Audio و Step-Audio-Chat معدل كفاءة الطاقة المعتمد/معدل كفاءة الطاقة المعتمد التنافسي في Aishell-1/2 وWenetSpeech وLibriSpeech. على سبيل المثال، في Aishell-1، يصل معدل كفاءة التحويل (CER) في Step-Audio Pretrain إلى 0,87%؛ وفي LibriSpeech test-clean، يصل معدل كفاءة التحويل (WER) في Step-Audio-Chat إلى 3,11%، مع اعتماد Qwen2-Audio كمرجع بنسبة 1,6%. تعكس هذه الأرقام أن التجزئة المنفصلة يمكن للصوت أن يتطابق أو يتفوق على أساليب الميزات المخفية عبر مجموعات مختلفة.
في TTS، تظهر المتغيرات Step-Audio-TTS-3B و"Single" معدلات خطأ منخفضة و تشابه المتحدثين (SS) مرتفع مقارنةً بـ FireRedTTS وMaskGCT وCosyVoice/2. على سبيل المثال، في اختبار zh، يصل معدل Step-Audio-TTS إلى 1,17% CER؛ وفي اختبار en، 2,0% WER، مع معدل SS تنافسي. علاوة على ذلك، عند تقييم التوليد من رموز منفصلةيحقق Step-Audio-TTS-3B نسبة 2,192% CER (zh) و3,585% WER (en)، مع SS حول 0,784/0,742، وهي القيم التي تكشف الوضوح والاستقرار صوتي.
المتطلبات والنشر
بالنسبة لعائلة Step-Audio الكاملة، نوصي بما يلي: وحدات معالجة الرسومات NVIDIA مع CUDAالتكوين المرجعي لـ Step-Audio-Chat (130B) هو أربعة أجهزة A800/H800 سعة 80 جيجابايت. Dockerfile لإعداد البيئة والتوصيات مثل استخدام vLLM مع التوازي الموتر لـ 130B (مع الأخذ في الاعتبار أن الفرع الرسمي قد لا يدعم نموذج الخطوة 1 حتى الآن، وأن الاهتمام الفلاشي الشخصي من خلال متغير ALiBi المستخدم).
في حالة Step-Audio 2 Mini، المتطلبات هي المزيد من المحتوى والاستدلال المحلي مُجدٍ للاختبار والنمذجة الأولية. تُسهّل العروض التوضيحية على الويب ونصوص الأمثلة التحقق من صحة المكدس دون الحاجة إلى تنسيقات معقدة أو بنية تحتية موزعة.
حالات الاستخدام والأمثلة العملية
لقد أثبت برنامج Step-Audio 2 Mini قدرته بالفعل اكتشاف الأصوات الطبيعية والتعليقات الصوتية الاحترافية، والتحكم إيقاع الكلام عند الطلب، وإجراء عمليات بحث آنية لتزويدك بالأخبار العاجلة. في مواجهة معضلات فلسفية، يتحول الأمر إلى الاستعلامات المجردة بأساليب وخطوات واضحة تعكس قدرتهم على التفكير السمعي واللفظي.
هناك أيضًا أمثلة متعددة اللغات بطلاقة (الصينية والإنجليزية واليابانية) وألعاب لغوية وعبارات اصطلاحية مثل "انها تمطر بغزارة"، قابلة للشرح ببساطة ونبرة طبيعية. تشمل العروض العامة التحكم في السرعة (سريع جدًا/بطيء جدًا)، مما يدل على أن النموذج لا يفهم المحتوى فحسب، بل يتحكم أيضًا في العروض عند الطلب.
الترخيص والاقتباس
يتم نشر الكود والنماذج الموجودة في المستودع تحت ترخيص Apache 2.0يمكن الاستشهاد بالتقرير الفني المرتبط باسم التقرير الفني Step-Audio 2 (arXiv: 2507.16632)، بمشاركة واسعة من بويونغ وو وآخرين، وارتباطه بشركة ستيب فن للذكاء الاصطناعي. لمزيد من التفاصيل، يُرجى الاطلاع على مدخل arXiv وBibTeX الرسمي.
@misc{wu2025stepaudio2technicalreport,
title={Step-Audio 2 Technical Report},
author={Boyong Wu et al.},
year={2025},
eprint={2507.16632},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.16632}
}
يقدم Step-Audio 2 Mini مزيجًا نادرًا جدًا من دقة التعرف التلقائي على الصوت والفهم اللغوي والمنطق السمعي والتوليف الطبيعي، معبأ في إطار شامل جاهز للنشر العملي؛ مع الأدوات وRAG متعدد الوسائط والتحكم الصوتي الدقيق، يتم وضعه كخيار مفتوح ومتعدد الاستخدامات وفعال. UNDER في العديد من المهام الرئيسية.
