بیگ بنگ: پژوهشگران چینی موفق به ساخت دستگاهی شدند که قادر است “نشانه‌های عصبی” را به “گفتار صوتی” تبدیل کند.

images

به گزارش بیگ بنگ به نقل از ایسنا، گروهی از محققان چینی با استفاده از نشانه‌هایی از فعالیت مغزی عصبی، راهی برای تولید گفتار مصنوعی ایجاد کردند که به عنوان «ترکیب گفتار» نیز شناخته می‌شود. پژوهشگران ادعا کردند یک دستگاه ذهن‌خوان دارند که قادر است افکار انسان را به گفتار تبدیل کند.

آنها برای رسیدن به این هدف از روشی به نام الکتروکورتیکوگرافی(ECoG) استفاده کردند که برای اندازه‌گیری سیگنال‌های مستقیم مغز از قشر مغز با استفاده از الکترودهایی که در حین جراحی در مغز کاشته می‌شوند، استفاده می‌شود.

چالش‌های لحن

زبان‌های آهنگین از لحن و تلفظ همراه با هم برای انتقال معنا استفاده می‌کنند. در زبان‌هایی مانند ماندارین، ویتنامی، پنجابی، تایلندی، لائوسی و کانتونی، کلمه‌ها علاوه بر حروف صدادار و صامت، می‌توانند از نظر لحن نیز متفاوت باشند.

mind

پژوهشگران در مقاله خود توضیح دادند: «با توجه به اینکه یک هجای آهنگی را می‌توان به هجای لحن و پایه که مستقل از یکدیگر هستند، تقسیم کرد، ما یک چارچوب تقسیم و تحلیل را پیشنهاد کردیم. فرض کردیم که لحن و هجای پایه را می‌توان جدا از فعالیت عصبی رمزگشایی کرد و سپس گفتار آهنگین را می‌توان با استفاده از ترکیب لحن رمزگشایی شده و هجای پایه ترکیب کرد.»

نقشه‌برداری زبان

این پژوهش شامل پنج شرکت‌کننده بود که طی عمل جراحی تومور مغزی در چین تحت نقشه‌برداری زبان بیدار قرار گرفتند. در طول عمل جراحی، دو الکترود روی سطح جانبی مغز آنها قرار داده شد تا فعالیت عصبی مغز آنها در طول جراحی ثبت کنند.

به شرکت‌کننده گفته شد که هجای ma را با هشت لحن مختلف پس از شنیدن یک نشانه صوتی بیان کنند. هر شرکت کننده 160 آزمایش انجام داد. هجای ma در زبان ماندارین دارای چهار لحن مختلف است که می‌تواند به ترتیب به معنای مادر، حشیش، اسب و سرزنش باشد.

ecbc ceb b fbcfbd adafc

پژوهشگران برای تولید و شناسایی دقیق لحن و آهنگ‌ها در زبان‌های آهنگین، الگوریتم‌هایی را که فعالیت‌های عصبی را مشاهده می‌کنند، تقویت کردند. ضبط صداها در هماهنگی با ضبط‌های ECoG از طریق یک میکروفون نصب شده انجام شد.

طبق این مطالعه، دانشمندان یک مدل شبکه عصبی ماژولار چند جریانی طراحی کردند که می‌تواند لحن و هجای پایه را به صورت موازی رمزگشایی کند و سپس با ترکیب خروجی‌های ماژول‌های لحن و هجا، گفتار را ترکیب کند.

چندین مطالعه اخیر امکان ترکیب جملات کوتاه و چند کلمه خاص در زبان‌های غیر آهنگین مانند انگلیسی و ژاپنی را از ضبط عصبی نشان داده‌اند. این پیشرفت‌ها نه تنها روش‌هایی را برای درمان آنارتری(از دست دادن کامل گفتار) ارائه می‌کنند، بلکه کارایی ارتباطی رابط‌های گفتاری مغز و کامپیوتر را نیز افزایش می‌دهند.

به گفته پژوهشگران، مدل ما برای سایر لهجه‌های چینی مانند «کانتونی» و «چینی وو» نیز قابل استفاده است. نتایج این مطالعه در مجله Science Advances منتشر شده است.

سایت علمی بیگ بنگ/ منابع: interestingengineering.com , scmp.com

دیدگاهتان را بنویسید

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

1 دیدگاه

  1. پیشرفت‌در‌این‌زمینه هم‌خوب هست و‌هم‌بد؛خوب هست برای اینکه‌‌با‌این‌فناوری می‌توان‌از‌‌برخی‌رویدادهای‌ناگوار جلوگیری کرد‌وبد‌بودن‌آن‌‌به‌این‌دلیل‌که‌ممکن است ‌از‌آن‌سواستفاده شود.