
هوش مصنوعی Eleven v3 معرفی شد/ طبیعیترین مدل تبدیل متن به گفتار
- 1404/03/18 10:18:50
- 0 نظر
- 119
- منبع : ایسنا
- کد خبر : 867024
به گزارش فبنا، هوش مصنوعی «الون وی3»(Eleven v3) شرکت «الون لبز»(ElevenLabs) که براساس یک ساختار جدید ساخته شده است، واقعگرایی و کنترل بیسابقهای را برای تولید گفتار به ارمغان میآورد. این نرمافزار میتواند لحن را در اواسط جمله تغییر دهد، به طور یکپارچه بین شخصیتها حرکت کند و به نشانههایی مانند نجوا، خنده و آه کشیدن پاسخ دهد. همه این موارد بدون ایجاد اختلال در جریان گفتار صورت میگیرند.
به نقل از دیجیتال ترمینال، این نسخه از هوش مصنوعی الون لبز یک نسخه «آلفا» است. این نسخه نسبت به مدلهای پیشین به مهندسی سریعتری نیاز دارد اما خروجی آن یک تغییر اساسی را در بیان، ظرافت و واقعگرایی انسانی ارائه میدهد. این نسخه جدید، پشتیبانی از زبانهای گوناگون را از 33 به بیش از 70 زبان افزایش داده است. با تنظیم دقیقتر، قابلیت اطمینان و کنترلپذیری نیز افزایش خواهد یافت.
قابلیتهای مهم الون وی3 به شرح زیر هستند.
1. پوششدهی بیش از 70 زبان؛ زبانهای پوششدادهشده در الون وی3 از 33 زبان به بیش از 70 زبان گسترش یافتهاند و پوششدهی جمعیت جهان از 60 درصد به 90 درصد افزایش داشته است.
2. حالت گفتگو؛ الون وی3 وقفههای طبیعی، تغییر لحن و جریان احساسی را بین چندین گوینده مدیریت میکند.
3. برچسبهای صوتی؛ الون وی3 ارائه خود را با برچسبهایی مانند زمزمه، عصبانیت، خنده یا صدای جیرجیر در هدایت میکند و امکان کنترل عملکرد را با جزئیات دقیق فراهم میآورد.
4. پشتیبانی از پخش زنده؛ به زودی ویژگی پشتیبانی از پخش زنده به صورت در لحظه برای مراکز تماس و اپراتورهای مکالمه ارائه میشود.
5. API عمومی برای الون وی3 (آلفا) به زودی منتشر میشود. کاربران برای دسترسی زودهنگام میتوانند با بخش فروش شرکت تماس بگیرند.
الون وی3 برای سازندگان، توسعهدهندگان و شرکتهایی طراحی شده است که محتوای شامل داستانها، کتابهای صوتی، گفتوگوی شخصیتها و تعاملات رسانهای را تولید میکنند. این مدل به آزمایش و ارائه بازخورد آگاهانه از متن ارج مینهد.
برای موارد استفاده در لحظه و با تأخیر کم مانند هوش مصنوعی محاورهای توصیه شده که کاربران فعلاً با مدلهای «توربو»(Turbo) و «فلش»(Flash) الون وی2.5 کار کنند. نسخه در لحظه الون وی3 در حال توسعه است.
الون وی3 کنترل بیان را برای تولید صدا به ارمغان میآورد و به جای خوانشهای ساده، اجراهای واقعی را ممکن میسازد. این نسخه میتواند احساسات را تغییر دهد، نحوهی بیان را تنظیم کند و یک حرکت روان را بین شخصیتهای یک نسل داشته باشد. برای اولین بار، گفتار هوش مصنوعی میتواند ریتم و ظرافت احساسی مکالمه انسانی را در بیش از 70 زبان دنبال کند.
«ماتی استانیشفسکی»(Mati Staniszewski) از بنیانگذاران الون لبز و مدیرعامل این شرکت گفت: الون وی3 رساترین مدل تبدیل متن به گفتار تا به امروز است که کنترل کامل را بر احساسات، نحوه بیان و نشانههای غیر کلامی ارائه میدهد. کاربران با استفاده از برچسبهای صوتی میتوانند آن را به زمزمه، خنده، تغییر لهجه یا حتی آواز خواندن ترغیب کنند. آنها میتوانند سرعت، احساسات و سبک را برای مطابقت با هر نوع نوشتار کنترل کنند. با ماموریت جهانی خود، ما خوشحالیم که این مدل را با پشتیبانی از بیش از 70 زبان گسترش میدهیم. این نسخه نتیجه چشمانداز و رهبری همکار من« پیوتر»(Piotr) و گروه پژوهشی فوقالعادهای است که او تشکیل داده بود.
ایجاد یک محصول خوب سخت است اما ایجاد یک الگوی کاملاً جدید تقریباً غیر ممکن است. من و همه ما در الون لبز از دیدن جادویی که این تیم به زندگی میبخشد، احساس خوششانسی میکنیم و با این نسخه هیجانزدهایم که یک بار دیگر مرزها را جابهجا کنیم.
الون وی3 (آلفا) هماکنون در آدرس https://elevenlabs.io موجود است.
نظرات
- 0 نظر