مشاهده دسته‌بندی‌ها

تشخیص گفتار - کنترل صوتی برای اسکرچ

🎤 تشخیص گفتار - کنترل صوتی برای اسکرچ #

افزونه تشخیص گفتار، کنترل صوتی واقعی را به اسکرچ می‌آورد.
این افزونه به شما امکان می‌دهد کلمات گفته شده را ضبط کرده و آنها را به متن تبدیل کنید - امکان فرمان‌های صوتی، دیکته، پروژه‌های یادگیری زبان و بازی‌های تعاملی کنترل صوتی - همه را در زمان واقعی، درست در مرورگر خود فراهم می‌کند.
به اندازه کافی ساده برای مبتدیان، و در عین حال قدرتمند برای کلاس‌های درس خلاق.


🌟 مرور کلی #

  • تبدیل گفتار به متن: کلمات گفتاری را ضبط کنید و از آنها در پروژه‌های اسکرچ خود استفاده کنید.
  • پشتیبانی از چند زبان: تشخیص گفتار در بیش از ۲۵ زبان از جمله انگلیسی، اسپانیایی، فرانسوی، آلمانی، عربی، فارسی، چینی، ژاپنی، کره‌ای و بسیاری دیگر.
  • تشخیص همزمان: رونویسی فوری از کلمات گفته شده را دریافت کنید.
  • ادغام آسان: از بلوک‌های ساده برای شروع گوش دادن و بازیابی متن شناخته شده استفاده کنید.
  • تبدیل اعداد: برای پردازش آسان‌تر، ارقام فارسی/عربی را به اعداد انگلیسی تبدیل کنید.
  • مبتنی بر مرورگر: در کروم، مایکروسافت اج و اکثر مرورگرهای مبتنی بر کرومیوم که از Web Speech API پشتیبانی می‌کنند، کار می‌کند.

✨ ویژگی‌های کلیدی #

  • بیش از ۲۵ زبان پشتیبانی شده با انواع مختلف منطقه‌ای.
  • API تشخیص گفتار داخلی مرورگر (Web Speech API).
  • دستور ساده‌ی «بشنو و منتظر بمان» برای دریافت همزمان صدا.
  • تغییر زبان در پروژه‌های چندزبانه به صورت آنی.
  • مستقیماً از طریق مرورگر شما کار می‌کند - سریع و پاسخگو.
  • نیازی به تنظیمات یا کلیدهای API نیست - به طور خودکار با API داخلی مرورگر شما کار می‌کند.

🚀 نحوه استفاده #

  1. بروید به: pishi.ai/play
  2. بخش افزونه‌ها را باز کنید.
  3. افزونه تشخیص گفتار را انتخاب کنید.
  4. وقتی مرورگرتان از شما خواست، اجازه دسترسی به میکروفون را بدهید.
  5. تنظیم زبان: از بلوک «زبان [LANGUAGE] شود» برای انتخاب زبان مورد نظر خود استفاده کنید (پیش‌فرض انگلیسی است).
  6. شروع به گوش دادن: از بلوک «بشنو و منتظر ماندن» استفاده کنید - افزونه شروع به گوش دادن به میکروفون شما می‌کند و منتظر صحبت شما می‌ماند.
  7. بازیابی گفتار: پس از صحبت کردن، متن تشخیص داده شده ذخیره می‌شود و می‌توان آن را با استفاده از بلوک گزارشگر «گفتار» بازیابی کرد.
  8. استفاده در پروژه‌ها: با بلوک‌های دیگر ترکیب کنید تا بازی‌های کنترل‌شونده با صوت، ابزارهای دیکته، فعالیت‌های یادگیری زبان و موارد دیگر ایجاد کنید!

نکات

  • برای بهترین دقت تشخیص، واضح و با سرعت عادی صحبت کنید.
  • برای به حداقل رساندن تداخل نویز پس‌زمینه، از یک محیط آرام استفاده کنید.
  • برای زبان‌هایی که اعداد غیر انگلیسی دارند (عربی/فارسی)، از بلوک «تبدیل ارقام فارسی/عربی به انگلیسی» برای نرمال‌سازی اعداد استفاده کنید.
  • در کروم، اج و سایر مرورگرهای مبتنی بر کرومیوم که از Web Speech API پشتیبانی می‌کنند، بهترین عملکرد را دارد.

🧱 بلوک‌ها و توابع #

 

🎤 دریافت صدا #

listen and wait

شروع به گوش دادن به میکروفون می‌کند و منتظر می‌ماند تا ورودی گفتار شناسایی شود.
این یک دستور مسدود کننده است اسکریپت تا زمانی که گفتار شناسایی و رونویسی شود، یا تا زمانی که یک وقفه/خطا رخ دهد (تقریباً ۶۰ ثانیه) متوقف می‌شود.

چگونه کار می‌کند:

  • وقتی این بلوک اجرا می‌شود، مرورگر از طریق میکروفون شما شروع به گوش دادن می‌کند.
  • کلمات خود را واضح بیان کنید - سیستم تشخیص گفتار، آنچه را که می‌گویید، رونویسی می‌کند.
  • پس از تشخیص گفتار، متن ذخیره می‌شود و بلوک کامل می‌شود.
  • اگر هیچ گفتاری تشخیص داده نشود یا خطایی رخ دهد، بلوک با نتیجه خالی کامل می‌شود.

مهم: مطمئن شوید که مجوزهای میکروفون در تنظیمات مرورگر شما فعال شده است.

گفتار

آخرین متن گفتار تشخیص داده شده که توسط بلوک «بشنو و منتظر بمان» ضبط شده است را گزارش می‌دهد.
متن رونویسی شده را به صورت یک رشته یا در صورت عدم تشخیص گفتار یا بروز خطا، یک رشته خالی برمی‌گرداند.

مثال:

  • اگر بگویید «سلام اسکرچ»، این بلوک «سلام اسکرچ» را گزارش می‌دهد.
  • از این بلوک برای نمایش گفتار تشخیص داده شده، مقایسه کلمات، فعال کردن اقدامات یا ذخیره گفتار در متغیرها استفاده کنید.

🌍 تنظیمات زبان #

زبان [LANGUAGE] شود

زبان تشخیص گفتار را تنظیم می‌کند.
LANGUAGE: از منوی کشویی شامل بیش از ۲۵ زبان و گونه‌های منطقه‌ای پشتیبانی‌شده، یکی را انتخاب کنید.

زبان‌های پشتیبانی‌شده:

  • Arabic (العربية)
  • Persian (فارسی)
  • English (English)
  • English – American (en-US)
  • English – British (en-GB)
  • German (Deutsch)
  • Spanish – Spain (Español)
  • Spanish – Latin America (Español Latinoamericano)
  • French (Français)
  • Italian (Italiano)
  • Portuguese (Português)
  • Portuguese – Brazilian (Português Brasileiro)
  • Russian (Русский)
  • Turkish (Türkçe)
  • Ukrainian (Українська)
  • Korean (한국어)
  • Japanese (日本語)
  • Chinese – Simplified (简体中文)
  • Chinese – Traditional (繁體中文)
  • Hindi (हिंदी)
  • Bengali (বাংলা)
  • Indonesian (Bahasa Indonesia)
  • Azeri (Azəri)
  • Kazakh (Қазақша)
  • Uzbek (Oʻzbekcha)

توجه: ممکن است برخی از زبان‌ها در کروم پشتیبانی شوند اما در مرورگرهای دیگر پشتیبانی نشوند.
برای مثال، فارسی در حال حاضر در گوگل کروم کار می‌کند اما ممکن است در مایکروسافت اج خطای «شبکه» نشان دهد.
اگر زبانی گفتار را تشخیص نمی‌دهد، ابتدا آن را در کروم امتحان کنید.

 

مثال‌های کاربردی:

  • پروژه‌های چندزبانه ایجاد کنید که بین زبان‌ها جابه‌جا شوند.
  • ابزارهای یادگیری زبانی بسازید که کلمات را در زبان‌های مختلف تشخیص دهند.
  • بازی‌های کنترل صوتی بسازید که برای گویندگان زبان‌های مختلف قابل دسترس است.

🔢 تبدیل اعداد #

تبدیل رقم‌های فارسی/عربی به انگلیسی

اعداد فارسی (۰-۹) یا عربی (۰-۹) را در متن گفتار تشخیص داده شده به ارقام انگلیسی (۰-۹) تبدیل می‌کند.
این قابلیت برای پروژه‌هایی که نیاز به پردازش اعداد گفته شده به زبان فارسی یا عربی دارند، مفید است و استفاده از آنها را در عملیات ریاضی یا مقایسه آسان‌تر می‌کند.

چگونه کار می‌کند:

  • به طور خودکار ارقام فارسی (۰ ۱ ۲ ۳ ۴ ۵ ۶ ۷ ۸ ۹) را تشخیص داده و آنها را به (0 1 2 3 4 5 6 7 8 9) تبدیل می‌کند.
  • به طور خودکار ارقام عربی-هندی (٠ ١ ٢ ٣ ٤ ٥ ٦ ٧ ٨ ٩) را تشخیص داده و آنها را به (0 1 2 3 4 5 6 7 8 9) تبدیل می‌کند.
  • متن تبدیل‌شده جایگزین متن گفتار اصلی می‌شود - در صورت نیاز، این بلوک را پس از «بشنو و منتظر ماندن» فراخوانی کنید.

مثال:
اگر گفتار تشخیص داده شده «شماره ۱۲۳» (عدد 123 به رقم فارسی) باشد، پس از تبدیل، متن گفتار با ارقام انگلیسی به «شماره 123» تبدیل می‌شود.

نکته: هنگام کار با گفتار فارسی یا عربی از این بلوک استفاده کنید تا مطمئن شوید که اعداد در قالبی هستند که اسکرچ می‌تواند به راحتی برای محاسبات از آن استفاده کند.


🎓 کاربردهای آموزشی #

  • آموزش زبان: ابزارهای تمرین تلفظ ایجاد کنید - دانش‌آموزان کلمات را بیان می‌کنند و سیستم، گفتار آنها را بررسی می‌کند.
  • آزمون‌های واژگانی بسازید که به پاسخ‌های گفتاری پاسخ می‌دهند.
  • پروژه‌های داستان‌سرایی چندزبانه ایجاد کنید که در آن‌ها شخصیت‌ها به فرمان‌های صوتی به زبان‌های مختلف پاسخ می‌دهند.
  • مفاهیم دسترسی‌پذیری را آموزش دهید - نشان دهید که چگونه کنترل صوتی می‌تواند به افراد دارای معلولیت در تعامل با فناوری کمک کند.
  • پردازش زبان طبیعی را اکتشاف کنید - دانش‌آموزان یاد می‌گیرند که چگونه ماشین‌ها گفتار انسان را درک می‌کنند.
  • بازی‌ها و شبیه‌سازی‌های کنترل‌شده با صدا ایجاد کنید تا مهارت‌های زبانی را در متن تمرین کنید.
  • ابزارهای دیکته برای تمرین نوشتن و داستان‌سرایی خلاقانه بسازید.

🎮 پروژه‌های نمونه #

  • بازی با فرمان‌های صوتی: برای کنترل یک اسپرایت، بگویید «چپ»، «راست»، «بپر».
  • ۸ توپ جادویی: با صدای بلند یک سوال بپرسید - اسپرایت با یک پاسخ جواب می‌دهد.
  • ماشین حساب صوتی: مسائل ریاضی مانند «پنج به علاوه سه چند می‌شود» را بگویید - اسپرایت پاسخ را نمایش می‌دهد.
  • آزمون زبان: اسپرایت می‌پرسد «چطور به اسپانیایی سلام می‌کنید؟» - دانش‌آموز با صدا پاسخ می‌دهد.
  • داستان سرایی: داستانی را دیکته کنید و همزمان با صحبت کردن، شاهد نمایش آن روی صفحه باشید.
  • انتخابگر رنگ: نام یک رنگ را بگویید - اسپرایت به آن رنگ تغییر می‌کند.
  • شبیه‌ساز حیوانات خانگی: به یک حیوان خانگی مجازی دستورات صوتی مانند «بشین»، «بازی کن»، «بخواب» بدهید.
  • خوشامدگوی چندزبانه: به زبان‌های مختلف صحبت کنید - اسپرایت زبان را تشخیص می‌دهد و بر اساس آن پاسخ می‌دهد.

🧩 خودتان امتحان کنید: pishi.ai/play


🔧 نکات و عیب‌یابی #

 

🎤 نکات ویژه تشخیص گفتار #

  • میکروفون کار نمی‌کند؟ مجوزهای مرورگر را بررسی کنید - مطمئن شوید که سایت به میکروفون دسترسی دارد.
  • گفتار را به طور دقیق تشخیص نمی‌دهد؟ واضح صحبت کنید و نویز پس‌زمینه را کاهش دهید. برای کیفیت بهتر از هدست یا میکروفون خارجی استفاده کنید.
  • زبان اشتباهی تشخیص داده شده است؟ قبل از گوش دادن، مطمئن شوید که زبان صحیح را با استفاده از گزینه «زبان[LANGUAGE] شود» تنظیم کرده‌اید.
  • خطای «تشخیص گفتار پشتیبانی نمی‌شود»؟ این افزونه به کروم، اج یا مرورگر دیگری مبتنی بر کرومیوم با پشتیبانی از Web Speech API نیاز دارد. سافاری و فایرفاکس پشتیبانی محدودی دارند یا اصلاً پشتیبانی نمی‌کنند.
  • زبان در مرورگر شما کار نمی‌کند؟ برخی از زبان‌ها (مانند فارسی) ممکن است در Edge یا سایر مرورگرها پشتیبانی نشوند. برای بهترین سازگاری، از Chrome استفاده کنید.
  • پایان مهلت یا عدم تشخیص گفتار؟ سیستم حدود ۶۰ ثانیه برای گفتار منتظر می‌ماند - اگر چیزی تشخیص داده نشود، پایان مهلت داده شده متن خالی را برمی‌گرداند.
  • اعداد درست کار نمی‌کنند؟ برای گفتار فارسی یا عربی، از بلوک تبدیل اعداد برای نرمال‌سازی ارقام استفاده کنید.
  • کیفیت تشخیص گفتار متفاوت است؟ دقت تشخیص گفتار به لهجه، تلفظ و وضوح گفتار بستگی دارد - نتایج ممکن است بین کاربران متفاوت باشد.
  • اتصال به اینترنت: Web Speech API برای اکثر زبان‌ها از سرویس‌های ابری گوگل استفاده می‌کند - برای کار کردن تشخیص گفتار، اتصال به اینترنت لازم است.
  • شما می‌توانید هر زمان که خواستید با متوقف کردن اسکریپت یا بارگذاری مجدد پروژه، تشخیص را متوقف کنید.

🔒 حریم خصوصی و امنیت #

  • این افزونه از رابط برنامه‌نویسی کاربردی گفتار وب داخلی مرورگر استفاده می‌کند که ممکن است صدا را برای پردازش به سرورهای گوگل ارسال کند (بسته به پیاده‌سازی مرورگر).
  • صدا فقط برای رونویسی پردازش می‌شود - متن گفتار به مرورگر شما برگردانده می‌شود و توسط این افزونه ذخیره نمی‌شود.
  • صدا توسط مرورگر شما با استفاده از Web Speech API پردازش می‌شود - Pishi.ai و Scratch هرگز هیچ داده‌ای را دریافت یا ذخیره نمی‌کنند.
  • هیچ اطلاعات شخصی یا ضبط گفتاری توسط Pishi.ai یا Scratch ذخیره یا منتقل نمی‌شود.
  • همیشه تنظیمات حریم خصوصی مرورگر خود و مجوزهای دسترسی به میکروفون را بررسی کنید.

🧪 اطلاعات فنی #

  • رابط برنامه‌نویسی کاربردی: Web Speech API (SpeechRecognition / webkitSpeechRecognition)
  • مرورگرهای پشتیبانی‌شده: کروم، اج و اکثر مرورگرهای مبتنی بر کرومیوم که از Web Speech API پشتیبانی می‌کنند
  • زبان‌ها: بیش از ۲۵ زبان و گونه‌های منطقه‌ای
  • زمان انتظار: تقریباً ۶۰ ثانیه گوش دادن برای فراخوانی هر «بشنو و منتظر بمان»
  • حالت تشخیص: تشخیص یکباره‌ای (یک گفتار در هر فراخوانی شنیدن؛ حالت پیوسته پشتیبانی نمی‌شود)
  • نیاز به اینترنت: بله - API گفتار وب معمولاً از پردازش مبتنی بر فضای ابری برای رونویسی استفاده می‌کند
  • تبدیل اعداد: پشتیبانی از فارسی (۰ تا ۹) و عربی-هندی (٠ تا ٩) به انگلیسی (0 تا 9)
  • حریم خصوصی: صدا توسط API مرورگر پردازش می‌شود - پیشی.ای‌آی اسکرچ هرگز صدای شما را ذخیره نمی‌کند.

🔗 افزونه‌های مرتبط #

  • 🔊 متن به گفتار - تبدیل متن به صدای گفتاری
  • 💬 چت جی‌بی‌تی - پاسخ‌های هوشمند ایجاد کنید، مکالمات را نگه دارید یا چت‌بات‌هایی بسازید که صدای شما را می‌فهمند و به آن پاسخ می‌دهند.
  • 🌐 ترجمه - ترجمه گفتار تشخیص داده شده به زبان‌های دیگر برای پروژه‌های چندزبانه یا تفسیر همزمان.
  • 🏫 ماشین آموزش‌پذیر گوگل - از مدل‌های آموزش‌دیده خودتان برای تشخیص صداها، تصاویر یا حالت‌های ایجاد شده در ماشین آموزشی گوگل استفاده کنید.

📚 اطلاعات بیشتر #


پیمایش به بالا