blog
چهارشنبه، ۳ اردیبهشت ۱۴۰۴
نوشته شده توسط امیر قریشی نژاد
دسته بندی سخت افزاری

تولید برنامه‌های صدامحور مثل پادکست و کتاب صوتی همیشه جزو کارهای هزینه‌بر بوده است؛ به این دلیل که به گوینده‌ی حرفه‌ای، استودیوی مجهز و نرم‌افزارهای پیشرفته‌ی ویرایش صدا نیاز دارد. البته می‌توانیم اینجا از فعل گذشته استفاده کنیم و بگوییم «نیاز داشته است»؛ چون حالا با وجود فناوری تبدیل متن به صدا در ابزارهایی مثل هوش مصنوعی murf، هر کسی با هر نوع صدایی می‌تواند در خانه‌ی خود فایل‌های صوتی حرفه‌ای بسازد.

در این مقاله این هوش مصنوعی را می‌شناسیم، امکانات آن را بررسی و با سایر ابزارهای تولید صدای هوشمند (AI Audio Tools) مقایسه می‌کنیم.

هوش مصنوعی murf  چیست؟

هوش مصنوعی murf ابزار تبدیل متن به صدا است؛ یعنی کلمات را از شکل نوشتاری به گفتاری تبدیل می‌کند. مورف با استفاده از فناوری‌های یادگیری عمیق و پردازش زبان طبیعی (NLP) می‌تواند صداهایی انسانی و زنده و باورپذیر (Realistic AI Voices) تولید کند.

مورف ابتدا یک نسخه‌ی فونتیک (نسخه‌ی دارای تلفظ کلمات) از متن می‌سازد و سپس آن را به‌صورت موج صوتی بازسازی می‌کند. شباهت صداهای ساخته‌شده با این هوش مصنوعی با صدا و لحن انسان به این دلیل است که مورف می‌تواند متن را بخواند و ساختار آن را درک و تحلیل کند که این حاصل الگوریتم‌هایی است که با هزاران ساعت صدای انسانی آموزش دیده‌اند.

در سال ۲۰۲۰، سه هم‌دانشگاهی از هند، Murf AI را با انگیزه‌ی ساده‌سازی فرایند تولید صداهای باکیفیت برای تولید محتوا راه انداختند. پروژه‌ی مورف در ۲۰۲۲، توانست سرمایه‌ای هنگفت به‌ارزش ۱۰ میلیون دلار جذب کند که به توسعه‌ی فناوری و افزایش سهم آن از بازار کمک کرد.

این ابزار تبدیل متن به گفتار با معرفی نسخه‌ی Speech Gen 2 در سال ۲۰۲۴، دقت تلفظ‌های خود را به ۹۸/۸ درصد رسانده (منبع: techradar) و با قابلیت‌های جدید خود که در ادامه بررسی می‌کنیم، نسبت به رقبا متمایز شده است.

قابلیت‌های هوش مصنوعی مورف

هوش مصنوعی murf قابلیت‌های متفاوتی برای تولید صدا با هوش مصنوعی دارد که در ادامه به آن‌ها اشاره می‌کنیم.

تبدیل متن به گفتار

مورف یکی از ابزارهای تبدیل متن به گفتار با هوش مصنوعی (Text-to-Speech AI Tools) است که بیش از ۲۰ زبان را پشتیبانی می‌کند؛ ولی متاسفانه شامل فارسی نمی‌شود.

مورف خود را نسل بعدی هوش مصنوعی تولید گفتار می‌داند که چندزبانه، آگاه از پس‌زمینه‌ی گفتار و طبیعی است.

این ابزار سنتز گفتار (Natural Voice Synthesis) بیش از ۲۰۰ صدای طبیعی و انسان‌گونه دارد و می‌توانید گفتار تولید‌شده با آن‌ها را سفارشی‌سازی کنید. در ادامه تنظیمات پیشرفته در Murf AI برای سفارشی‌کردن صدا را ذکر می‌کنیم:

  • انتخاب سبک و احساس گفتار (Style) مثل خبری، عصبی یا تبلیغاتی
  • تغییر میزان زیر یا بم بودن صدا (Pitch)
  • تنظیم سرعت گفتار (Speed)
  • اضافه‌کردن مکث (Add Pause)
  • تغییر تلفظ کلمات (Pronunciation)
  • انتخاب تعداد خروجی (Variations)
  • اضافه‌کردن تکیه به کلمات
  • از مزایای استفاده از Murf در تولید صدا این است که قبل از تولید فایل گفتار، می‌توانید نسخه‌ی اولیه را بشنوید و تغییرات لازم را ایجاد کنید. همچنین می‌توانید موسیقی پس‌زمینه، تصویر و ویدیو هم به فایل گفتار تولیدشده اضافه کنید و همه چیز را در یک جا داشته باشید.