ساغر هموله چهارشنبه 15 فروردین 1397 02:34 ب.ظ نظرات ()

توسعه‌دهندگان از این پس می‌توانند از همان فناوری تبدیل متن به گفتاری كه در سرویس‌های گوگل به‌كار رفته است، در اپلیكیشن‌های خود استفاده كنند.

سرویس متن به گفتار ابری گوگل در دسترس توسعه‌دهندگان قرار گرفت

گوگل اخیرا در وبلاگ خود اعلام كرد كه سرویس متن به گفتار ابری خود را در دسترس جامعه‌ی توسعه‌دهندگان قرار می‌دهد، این سرویس به توسعه‌دهندگان امكان می‌دهد تا با استفاده از الگوی ویونت (Wavenet) و زیرساخت شبكه‌ی عصبی غول جستجو، صدای طبیعی متن به گفتار را در اپلیكیشن‌های خود به‌كار بگیرند. فناوری ویونت همان فناوری به‌كار رفته در تبدیل متن به گفتار برخی از سرویس‌های محبوب گوگل از جمله گوگل اسیستنت، مپس و جستجو است. گوگل در وبلاگ خود اشاره كرد كه جدیدترین سرویس آن می‌تواند در سامانه‌های پاسخ صوتی مراكز تماس به‌كار رود، امكان پاسخگویی را در اختیار دستگاه‌های اینترنت اشیا قرار دهد و به‌صورت خودكار محتوای متنی مقاله‌ها و كتاب‌ها را نیز به قالب‌های صوتی نظیر پادكست‌ها یا كتاب‌های صوتی تبدیل كند.

توسعه‌دهندگان می‌توانند از بین ۳۲ صدای مختلف از ۱۲ زبان از جمله انگلیسی، پرتغالی، ژاپنی، فرانسوی، اسپانیایی و سوئدی دست به انتخاب بزنند؛ با این حال، گوگل می‌گوید كه در آینده‌ی نزدیك صداهای بیشتری را به این سرویس افزوده خواهد كرد. علاوه‌بر این، افراد می‌توانند حجم صدا، نرخ گفتار و كیفیت صداها را نیز تغییر دهند. همچنین توسعه‌دهنگان می‌توانند از برچسب‌های نشانه‌گذاری متن به گفتار (SSML) به‌منظور افزودن مكث، دستورالعمل‌های تلفظ و تاریخ به گفتار بهره بگیرند.

گوگل در پست وبلاگ خود جزئیات بیشتری درباره‌ی بهبودهای صورت‌گرفته در الگوی ویونت ارائه داد، این فناوری در ابتدا در سال ۲۰۱۶ عرضه شد و در آن زمان از یك شبكه‌ی عصبی كانولوشن كه با بهره‌گیری از نمونه‌های گفتاری مختلفی آموزش داده شده بود، استفاده می‌كرد؛ با این حال، الگوی یادشده بلافاصله با محصولات گوگل ادغام نشد؛ زیرا هنوز برای استفاده‌ی تجاری از آمادگی لازم برخوردار نبود. دو سال پس از عرضه‌ی این فناوری، اكنون نسخه‌های به‌روزشده از الگوی ویونت امكان ساخت بسیار سریع‌تر صدا را فراهم می‌كنند. ویونت در سال ۲۰۱۶ در یك ثانیه تنها قادر به تولید ۰.۰۲ ثانیه صدا بود؛ در حالی كه الگوی به‌روزشده می‌تواند در یك ثانیه، ۲۰ ثانیه صدا تولید كند. علاوه بر این، الگوی به‌روزشده در مقایسه با الگوی اولیه، وضوح و دقت بهتری ارائه می‌دهد كه نتیجه‌ی آن تولید صدای باكیفیت‌تر و شبیه‌تر به صدای انسان است.

توسعه‌دهندگانی كه از مزیت سرویس متن به گفتار ابری بهره خواهند گرفت، می‌توانند از بین صداهای بیسیك و ویونت دست به انتخاب بزنند و براساس تعداد كاراكترهایی كه ماهانه برای ساخت صدا به این سرویس ارسال می‌كنند، ملزم به پرداخت هزینه خواهند شد. صداهای بیسیك به نحو قابل توجهی ارزان‌تر هستند؛ با این حال، صداهای ویونت صوت طبیعی‌تری ارائه خواهند داد.