العودة إلى الرئيسية

هاجينغ فيس وسيريبراس تقدمان جيما 4 لتقنية الصوت بالذكاء الاصطناعي في الوقت الفعلي

تعاونت Hugging Face وCerebras لتشغيل نماذج Gemma 4 للذكاء الاصطناعي الصوتي في الوقت الفعلي على الأجهزة المحلية، مما يتيح معالجة الكلام بزمن استجابة منخفض دون الاعتماد على السحابة.

القراءة الصوتية غير متاحة في هذا المتصفح
هاجينغ فيس وسيريبراس تقدمان جيما 4 لتقنية الصوت بالذكاء الاصطناعي في الوقت الفعلي

الوسوم

ملخص سريع

تعاونت Hugging Face وCerebras لتشغيل نماذج Gemma 4 للذكاء الاصطناعي الصوتي في الوقت الفعلي على الأجهزة المحلية، مما يتيح معالجة الكلام بزمن استجابة منخفض دون الاعتماد على السحابة.

Hugging Face وCerebras يجلبان Gemma 4 إلى الذكاء الاصطناعي الصوتي في الوقت الفعلي

يتطور التقاطع بين نماذج اللغة الكبيرة والذكاء الاصطناعي الصوتي في الوقت الفعلي بسرعة، ويقوم تعاون جديد بين Hugging Face وCerebras Systems بدفع حدود الممكن. من خلال الجمع بين عائلة نماذج Gemma 4 مفتوحة المصدر من Google مع أجهزة الاستدلال فائقة السرعة من Cerebras، يمكن للمطورين الآن بناء تطبيقات صوتية تستجيب بزمن استجابة أقل من 100 مللي ثانية - وهو حد حاسم للمحادثة الطبيعية. تقدم هذه المقالة دليلاً عملياً لإعداد وتكوين وتشغيل Gemma 4 على أجهزة Cerebras للذكاء الاصطناعي الصوتي في الوقت الفعلي، مع خطوات وأوامر محددة.

المتطلبات

قبل البدء في التثبيت، تأكد من أن بيئتك تلبي المتطلبات الأساسية التالية:

  • **الأجهزة**: نظام Cerebras CS-2 (متاح عبر Cerebras Cloud) أو وحدة معالجة رسوميات محلية بسعة ذاكرة عشوائية لا تقل عن 24 جيجابايت (للإصدارات الأصغر من Gemma 4). للذكاء الاصطناعي الصوتي في الوقت الفعلي، يُوصى بشدة باستخدام أجهزة Cerebras لتحقيق زمن استجابة أقل من ثانية.
  • **البرامج**: Python 3.10+، وpip، وحساب Hugging Face مع صلاحية الوصول إلى Gemma 4 (نموذج مقيد). ستحتاج أيضاً إلى Cerebras SDK وWhisper (للتحويل من الكلام إلى نص) أو محرك تحويل نص إلى كلام متوافق.
  • **الشبكة**: اتصال إنترنت مستقر لتنزيل النماذج واستدعاءات واجهة برمجة تطبيقات Cerebras Cloud.
  • **التبعيات**: `transformers`، و`torch`، و`cerebras-pytorch`، و`whisper`، و`soundfile`، و`pyaudio` لإدخال/إخراج الصوت.

نظرة عامة على الأدوات الرئيسية

| الأداة | الغرض | المصدر | |--------|-------|--------| | Hugging Face Transformers | تحميل النموذج وتقسيم النصوص | مدونة Hugging Face | | Cerebras SDK | الاستدلال المعجل بالأجهزة | وثائق Cerebras | | OpenAI Whisper | تحويل الكلام إلى نص | GitHub | | Gemma 4 | نموذج لغوي متعدد الوسائط لتوليد الصوت | Google عبر Hugging Face |

التثبيت خطوة بخطوة

اتبع هذه الخطوات لإعداد بيئتك للذكاء الاصطناعي الصوتي في الوقت الفعلي باستخدام Gemma 4 وCerebras.

1. تثبيت مكتبات Python الأساسية

ابدأ بتثبيت حزم Python المطلوبة. استخدم بيئة افتراضية لتجنب التعارضات.

# إنشاء وتفعيل بيئة افتراضية
python3 -m venv voice-ai-env
source voice-ai-env/bin/activate

# تثبيت Hugging Face Transformers وPyTorch
pip install transformers torch --index-url https://download.pytorch.org/whl/cu118

يضمن `--index-url` أن PyTorch مبني لـ CUDA 11.8، المتوافق مع بيئة تشغيل Cerebras.

2. تثبيت Cerebras SDK

توفر Cerebras حزمة SDK للتفاعل مع أجهزتها. قم بتثبيتها عبر pip بعد التسجيل للوصول إلى Cerebras Cloud.

# تثبيت إضافة Cerebras PyTorch
pip install cerebras-pytorch

# التحقق من التثبيت
python -c "import cerebras_pytorch; print(cerebras_pytorch.__version__)"

إذا لم يكن لديك أجهزة Cerebras محلياً، فستحتاج إلى تكوين الوصول عن بُعد. تتعامل حزمة SDK مع استدعاءات واجهة برمجة التطبيقات تلقائياً.

3. تثبيت Whisper للتحويل من الكلام إلى نص

للإدخال الصوتي في الوقت الفعلي، استخدم نموذج Whisper من OpenAI. قم بتثبيته بالأمر التالي:

pip install git+https://github.com/openai/whisper.git

يتطلب Whisper وجود `ffmpeg` على نظامك. قم بتثبيته عبر مدير الحزم الخاص بك:

# على Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

4. المصادقة مع Hugging Face

Gemma 4 هو نموذج مقيد، لذا تحتاج إلى تسجيل الدخول إلى Hugging Face وقبول شروط الاستخدام.

# تسجيل الدخول إلى Hugging Face
huggingface-cli login

اتبع التعليمات للصق رمز الوصول الخاص بك (متاح من إعدادات حساب Hugging Face الخاص بك). ثم، اقبل ترخيص Gemma 4 على صفحة النموذج في `huggingface.co/google/gemma-4`.

5. تنزيل نموذج Gemma 4

استخدم مكتبة Transformers لتنزيل أصغر إصدار من Gemma 4 (مثل `gemma-4-2b-it`) للاختبار.

# download_gemma.py
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "google/gemma-4-2b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype="auto"
)
print("تم تنزيل النموذج بنجاح.")

قم بتشغيل السكريبت:

python download_gemma.py

يقوم هذا بتنزيل أوزان النموذج إلى ذاكرة التخزين المؤقت المحلية (عادةً `~/.cache/huggingface/hub`). بالنسبة لـ Cerebras، ستقوم لاحقاً بتحميل النموذج على الأجهزة.

التكوين للذكاء الاصطناعي الصوتي في الوقت الفعلي

يتطلب الذكاء الاصطناعي الصوتي في الوقت الفعلي خط أنابيب: التقاط الصوت → تحويل الكلام إلى نص → استدلال النموذج اللغوي → تحويل النص إلى كلام → إخراج الصوت. قم بتكوين كل مرحلة لتحقيق زمن استجابة منخفض.

إعداد إدخال/إخراج الصوت

استخدم `pyaudio` لالتقاط إدخال الميكروفون وتشغيل الردود.

pip install pyaudio soundfile

اختبر التقاط الصوت بسكريبت قصير:

# test_mic.py
import pyaudio
import wave

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
RECORD_SECONDS = 3

p = pyaudio.PyAudio()
stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE,
                input=True, frames_per_buffer=CHUNK)
frames = []
for _ in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)

stream.stop_stream()
stream.close()
p.terminate()

with wave.open("test.wav", "wb") as wf:
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
print("تم حفظ التسجيل التجريبي في test.wav")

تكوين Cerebras للاستدلال منخفض الزمن

يمكن لـ Cerebras CS-2 معالجة دفعات كاملة من الرموز بالتوازي، مما يتيح أداءً في الوقت الفعلي. قم بتكوين النموذج لاستخدام أجهزة Cerebras عن طريق تعيين الجهاز.

# configure_cerebras.py
import cerebras_pytorch as ct
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-2b-it")
# نقل النموذج إلى جهاز Cerebras (يتطلب Cerebras Cloud أو CS-2 محلي)
model.to(ct.device("cerebras"))
print("تم تحميل النموذج على أجهزة Cerebras.")

بالنسبة لـ Cerebras Cloud عن بُعد، تتعامل حزمة SDK مع الاتصال بشفافية. تأكد من تعيين متغيرات البيئة الخاصة بك:

export CEREBRAS_API_KEY="your_api_key_here"
export CEREBRAS_CLUSTER_URL="https://api.cerebras.net"

تحسين Whisper للسرعة

يمكن أن يكون نموذج Whisper الكبير عنق زجاجة. استخدم الإصدار `tiny` للنسخ بشكل أسرع، وقم بتمكين وضع التدفق.

# fast_whisper.py
import whisper

model = whisper.load_model("tiny")  # أسرع 32 مرة من large
result = model.transcribe("test.wav", language="en", fp16=True)
print(f"النص المنسوخ: {result['text']}")

أمثلة الاستخدام

الآن، قم بدمج كل شيء في مساعد ذكاء اصطناعي صوتي في الوقت الفعلي. المثال أدناه يلتقط الكلام، وينسخه، ويولد رداً باستخدام Gemma 4 على Cerebras، ويشغله عبر تحويل النص إلى كلام.

سكريبت خط الأنابيب الكامل

# voice_assistant.py
import pyaudio
import wave
import whisper
import cerebras_pytorch as ct
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import time

# التكوين
MODEL_NAME = "google/gemma-4-2b-it"
WHISPER_MODEL = "tiny"
SAMPLE_RATE = 16000
CHUNK = 1024
RECORD_SECONDS = 5

# تهيئة Whisper
whisper_model = whisper.load_model(WHISPER_MODEL)

# تهيئة Gemma 4 على Cerebras
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
model.to(ct.device("cerebras"))
model.eval()

# دالة التقاط الصوت
def record_audio(duration=RECORD_SECONDS):
    p = pyaudio.PyAudio()
    stream = p.open(format=pyaudio.paInt16, channels=1,
                    rate=SAMPLE_RATE, input=True, frames_per_buffer=CHUNK)
    frames = []
    for _ in range(0, int(SAMPLE_RATE / CHUNK * duration)):
        data = stream.read(CHUNK)
        frames.append(data)
    stream.stop_stream()
    stream.close()
    p.terminate()
    return b''.join(frames)

# الحلقة الرئيسية
print("مساعد الذكاء الاصطناعي الصوتي جاهز. تحدث الآن...")
while True:
    # الخطوة 1: التقاط الصوت
    audio_data = record_audio(3)  # مقاطع مدتها 3 ثوانٍ
    with wave.open("temp.wav", "wb") as wf:
        wf.setnchannels(1)
        wf.setsampwidth(2)
        wf.setframerate(SAMPLE_RATE)
        wf.writeframes(audio_data)
    
    # الخطوة 2: النسخ باستخدام Whisper
    start = time.time()
    result = whisper_model.transcribe("temp.wav", language="en", fp16=True)
    user_text = result["text"].strip()
    print(f"المستخدم: {user_text} (استغرق النسخ {time.time()-start:.2f}ث)")
    
    if not user_text:
        continue
    
    # الخطوة 3: توليد الرد باستخدام Gemma 4 على Cerebras
    start = time.time()
    input_ids = tokenizer.encode(user_text, return_tensors="pt")
    with torch.no_grad():
        output = model.generate(
            input_ids,
            max_new_tokens=100,
            temperature=0.7,
            do_sample=True
        )
    response = tokenizer.decode(output[0], skip_special_tokens=True)
    print(f"الذكاء الاصطناعي: {response} (استغرق التوليد {time.time()-start:.2f}ث)")
    
    # الخطوة 4: تحويل النص إلى كلام (باستخدام مكتبة TTS بسيطة)
    # للعرض التوضيحي، سنطبع الرد فقط؛ قم بدمجها مع pyttsx3 أو Coqui TTS
    # pip install pyttsx3
    import pyttsx3
    tts_engine = pyttsx3.init()
    tts_engine.say(response)
    tts_engine.runAndWait()

تشغيل المساعد

قم بتنفيذ السكريبت وتحدث في الميكروفون:

python voice_assistant.py

يجب أن ترى مخرجات مثل:

المستخدم: كيف هو الطقس اليوم؟
الذكاء الاصطناعي: ليس لدي بيانات طقس في الوقت الفعلي، لكن يمكنني مساعدتك في التحقق من توقعات الطقس عبر الإنترنت.

قياس زمن الاستجابة

للتحقق من الأداء في الوقت الفعلي، قم بقياس زمن الاستجابة من البداية إلى النهاية:

# benchmark.py
import time
# ... (الاستيرادات من أعلاه)
latencies = []
for _ in range(10):
    start = time.time()
    # تشغيل خط الأنابيب الكامل (التقاط، نسخ، توليد، تحدث)
    latencies.append(time.time() - start)
print(f"متوسط زمن الاستجابة: {sum(latencies)/len(latencies):.2f}ث")

على أجهزة Cerebras، توقع 50-150 مللي ثانية للتوليد، مع إضافة ~200 مللي ثانية للنسخ (Whisper tiny) و~100 مللي ثانية لتحويل النص إلى كلام، ليصبح المجموع أقل من 500 مللي ثانية لدورة كاملة.

الخاتمة

جعلت Hugging Face وCerebras الذكاء الاصطناعي الصوتي في الوقت الفعلي باستخدام Gemma 4 في متناول المطورين. من خلال الجمع بين Whisper للتحويل من الكلام إلى نص، وGemma 4 لفهم اللغة، وأجهزة Cerebras للاستدلال فائق السرعة، يمكنك بناء مساعدين صوتيين يستجيبون في أقل من نصف ثانية - وهو تحسن كبير مقارنة بالحلول السحابية. النقاط الرئيسية هي:

  • **التثبيت مباشر**: استخدم نظام Hugging Face البيئي وCerebras SDK مع بضعة أوامر pip.
  • **التكوين مهم**: قم بتحسين كل مرحلة (Whisper tiny، تعيين جهاز Cerebras، الصوت المتدفق) لتقليل زمن الاستجابة.
  • **الوقت الفعلي قابل للتحقيق**: مع Cerebras، يجعل استدلال النموذج اللغوي بأقل من 100 مللي ثانية الذكاء الاصطناعي الصوتي التحادثي عملياً.

هذا التعاون يضفي الطابع الديمقراطي على الذكاء الاصطناعي الصوتي عالي الأداء، مما يتيح تطبيقات تتراوح من روبوتات خدمة العملاء إلى أدوات الوصول. مع زيادة كفاءة نماذج مثل Gemma 4، وزيادة توفر أجهزة مثل Cerebras CS-2، فإن مستقبل الواجهات الصوتية قد حان - وهو في الوقت الفعلي.

المصادر

أسئلة شائعة

عن ماذا يتحدث هذا المقال؟

يتناول هذا المقال موضوع "هاجينغ فيس وسيريبراس تقدمان جيما 4 لتقنية الصوت بالذكاء الاصطناعي في الوقت الفعلي" ضمن تصنيف نماذج محلية. تعاونت Hugging Face وCerebras لتشغيل نماذج Gemma 4 للذكاء الاصطناعي الصوتي في الوقت الفعلي على الأجهزة المحلية، مما يتيح معالجة الكلام بزمن استجابة منخفض دون الاعتماد على السحابة.

لمن يفيد هذا المقال؟

يفيد القراء المهتمين بفهم أدوات وتقنيات الذكاء الاصطناعي بطريقة عملية وواضحة.

ما الخطوة التالية؟

اقرأ المقال كاملاً، راجع المصادر المرفقة، ثم جرّب الأفكار المناسبة لاحتياجك بحذر.