What is Speech Synthesis: 3 Important Factors Related To It

टेक्स्ट-टू-स्पीच रोबोट

भाषा संकलन

मशीनों की सहायता से मानव की तरह भाषण कृत्रिम बनाने की विधि को भाषण संश्लेषण कहा जाता है। एक कंप्यूटर सिस्टम जिसे इस प्रक्रिया को पूरा करने के लिए उपयोग में लाया जाता है उसे स्पीच सिंथेसाइज़र कहा जाता है। सिस्टम को सॉफ्टवेयर या हार्डवेयर में आगे के कार्यान्वयन की आवश्यकता होती है, और हम टेक्स्ट-टू-स्पीच (टीटीएस) सिस्टम में इसके एक आवेदन को नोटिस कर सकते हैं। टेक्स्ट-टू-स्पीच सिस्टम टेक्स्ट के रूप में रोजमर्रा की मानव भाषा को इनपुट के रूप में स्वीकार करता है और इसे आउटपुट के रूप में भाषण में परिवर्तित करता है।

स्पीच सिंथेसिस एक डेटाबेस में संग्रहित इकाइयों के रूप में रिकॉर्ड किए गए भाषण को अनुक्रमित करके किया जाता है। सिस्टम संग्रहीत आवाज़ इकाइयों के आकार में भिन्न होता है; सबसे व्यापक आउटपुट रेंज एक ऐसी प्रणाली द्वारा प्रदान की जाती है जो स्पष्टता के नुकसान की संभावना के साथ टेलीफोन या डिपहोन्स को स्टोर करती है।

पूरे शब्दों या वाक्यों का भंडारण विशेष रूप से उपयोगकर्ता डोमेन के लिए उच्च गुणवत्ता वाले उत्पादन की अनुमति देता है। इस पद्धति को एक मुखर पथ मॉडल और मानव आवाज से संबंधित विभिन्न अन्य विशेषताओं को शामिल करके और कृत्रिम आवाज उत्पादन उत्पन्न करके प्रतिस्थापित किया जा सकता है।

भाषा संकलन — ***टीटीएस प्रणाली का अवलोकन***

एक स्पीच सिंथेसाइज़र की आउटपुट गुणवत्ता वास्तविक मानव आवाज़ के साथ इसकी निकटता और इसे समझना कितना आसान है, इस पर निर्भर करती है। वाक् संश्लेषण उपकरण का उपयोग 1990 के दशक से स्पष्ट हो गया है, जिसे विशिष्ट विकलांगताओं और दुर्बलताओं वाले लोगों की सहायता के लिए पूरी तरह से विकसित किया गया है।

पाठ से वाक् प्रणाली का अवलोकन

पाठ से भाषण के दो महत्वपूर्ण भाग हैं:

अग्रांत- यह इनपुट टेक्स्ट को परिवर्तित करने के लिए जिम्मेदार है, जिसमें विभिन्न प्रतीकों, संख्याओं और संक्षिप्तीकरण को समझने योग्य और परिवर्तनीय डेटा के समतुल्य रूप में शामिल किया गया है। इस प्रक्रिया को पाठ सामान्यीकरण या डेटा के पूर्व-प्रसंस्करण के रूप में कहा जाता है। प्रत्येक शब्द को फिर ध्वन्यात्मक क्षणभंगुरता के साथ असाइन किया जाता है और पाठ को अभियोजन इकाइयों में, जैसे वाक्यों, खंडों और वाक्यांशों को पाठ-से-फ़ोनेम या ग्रेफेम-टू-फ़ेफेमे नामक प्रक्रिया के माध्यम से टैग करता है। दो पहलुओं को तब प्रतीकात्मक भाषाई प्रतिनिधित्व वाले आउटपुट डेटा को उत्पन्न करने के लिए संयुक्त किया जाता है।
बैक एंड- आमतौर पर "सिंथेसाइज़र" के रूप में कहा जाता है, यह हिस्सा ध्वनि में प्रतीकात्मक भाषाई प्रतिनिधित्व के लिए जवाबदेह है। उन्नत प्रणाली में, इस प्रक्रिया को लक्ष्य अभियोजन (पिच समोच्च, फोनम समय) की गणना के बाद आगे बढ़ाया जाता है, जिसका उपयोग आउटपुट भाषण में किया जाएगा।

कंप्यूटर और वाक् सिंथेसाइज़र आवास 19 9663804888 — ***स्टीफन हॉकिंग द्वारा प्रयुक्त भाषण सिंथेसाइज़र***; छवि स्रोत: विज्ञान संग्रहालय लंदन / विज्ञान और समाज पिक्चर लाइब्रेरी, कंप्यूटर और भाषण सिंथेसाइज़र आवास, 19 (9663804888), सीसी द्वारा एसए 2.0

स्पीच सिंथेसिस में शामिल तकनीकें

स्वाभाविकता और समझदारी सबसे महत्वपूर्ण गुण हैं जो एक भाषण संश्लेषण उपकरण की गुणवत्ता निर्धारित करते हैं। स्वाभाविकता को डिवाइस की क्षमता से परिभाषित किया गया है ताकि मानव आवाज को यथासंभव बारीकी से दोहराया जा सके, और समझदारी यह निर्धारित करती है कि डिवाइस कितनी आसानी से आउटपुट ध्वनि को समझ सकता है। भाषण सिंथेसाइज़र इन दोनों पहलुओं में इष्टतम परिणाम देने का प्रयास करते हैं।

कॉन्टैनेटिव सिंथेसिस और फॉर्मेंट सिंथेसिस दो प्राथमिक प्रौद्योगिकियां हैं जो सिंथेटिक स्पीच वेवफॉर्म उत्पन्न करती हैं। प्रत्येक तकनीक में ताकत और नुकसान होते हैं, और एक संश्लेषण विधि का सामान्य उपयोग आमतौर पर इनमें से एक दृष्टिकोण की पसंद को निर्धारित करता है।

यह भी देखें मनोवृत्ति संकेतक क्या है: जानने के लिए 19 रोचक तथ्य

संघात्मक संश्लेषण

एक निश्चित तरीके से रिकॉर्ड किए गए भाषण के टुकड़ों को सीक्वेंस करना समसामयिक संश्लेषण कहलाता है। यह प्रक्रिया आम तौर पर सबसे प्राकृतिक-ध्वनि संश्लेषित भाषण का उत्पादन करती है। हालांकि, प्राकृतिक भाषण विविधताओं और स्वचालित तरंग विभाजन विभाजन के तरीकों के बीच असंगतता के परिणामस्वरूप अक्सर श्रव्य आउटपुट ग्लिच होते हैं।

वहाँ तीन महत्वपूर्ण उप-प्रकार के समवर्ती संश्लेषण मौजूद हैं।

इकाई चयन संश्लेषण- इस चयन तकनीक के लिए इनपुट रिकॉर्डेड भाषण का एक व्यापक डेटाबेस है। मजबूर संरेखण मोड में सेट वाक् पहचानकर्ता का उपयोग करके डेटाबेस का विभाजन किया जाता है। फोन, डिपहोन्स, शब्द, वाक्यांश, शब्दांश, शब्दकूट, वाक्य, आदि जैसी इकाइयों में विभाजन के परिणामस्वरूप इन इकाइयों का अनुक्रमण विभिन्न मापदंडों जैसे- पिच, अवधि, शब्दांश में स्थिति और पड़ोसी फोन पर आधारित होता है। निर्णय पेड़ प्रक्रिया निष्पादन के लिए एक श्रृंखला बनाने के लिए सबसे उपयुक्त इकाइयों का चयन करती है। डेटाबेस जितना व्यापक होगा, उतना ही स्वाभाविक है आउटपुट भाषण। यह तकनीक रिकॉर्ड किए गए डेटा के आधार पर आउटपुट भाषण के लिए सबसे असाधारण स्वाभाविकता प्रदान करती है।
डिपफोन संश्लेषण- इस तकनीक के लिए डेटाबेस में केवल डिपहोन्स होते हैं, जो इसे अपेक्षाकृत छोटा बनाता है। एक चयनित भाषा के ध्वन्यात्मकता पर विचार करने के लिए सभी अद्वितीय डिपहोन के सेट को निर्धारित करता है। भाषण डेटाबेस में प्रत्येक डिपफोन की एकल रिकॉर्डिंग शामिल है। PSOLA, MBROLA, लीनियर प्रेडिक्टिव कोडिंग जैसी विभिन्न डिजिटल सिग्नल प्रोसेसिंग तकनीकों का उपयोग इन डिपो यूनिटों पर लक्ष्य वाक्य को सुपरमप करने के लिए किया जाता है। डिपफोन सिंथेसिस का उपयोग शोध तक ही सीमित है क्योंकि भाषण में स्वाभाविकता का अभाव है, बहुत रोबोट लगता है, और इसमें सोनिक ग्लिट्स होते हैं।
डोमेन-विशिष्ट संश्लेषण- इस तकनीक का डेटाबेस पहले से रिकॉर्ड किए गए शब्दों और वाक्यांशों तक ही सीमित है। इस संश्लेषण विधि की प्रयोज्यता उस डोमेन तक सीमित है जिसके आधार पर डेटाबेस उत्पन्न होता है, उदाहरण के लिए, रेलवे स्टेशन की घोषणाएँ, मौसम की रिपोर्ट, बात करने वाली घड़ियाँ, आदि। इस तकनीक का कार्यान्वयन सीधा है, और एक ही समय में, उच्च स्तर का सीमित आउटपुट वाक्यों के कारण स्वाभाविकता प्राप्त की जा सकती है। प्राकृतिक भाषण के साथ शब्दों का एक सहज सम्मिश्रण प्राप्त करने के लिए, कई भाषा विविधताओं का हिसाब होना चाहिए।

पूर्व संश्लेषण

कई अनुप्रयोगों के लिए, भाषण की स्वाभाविकता एक लक्ष्य नहीं है; बल्कि, विश्वसनीयता, बुद्धिमत्ता और उच्च गति सटीकता अधिक महत्वपूर्ण हैं। यह फॉर्मेंट सिंथेसिस का उपयोग करके प्राप्त किया जा सकता है, जो एक संश्लेषित संश्लेषण और ध्वनिक मॉडलिंग को नियोजित करने वाला संश्लेषित भाषण बनाता है। यह विधि, जिसे नियम-आधारित संश्लेषण भी कहा जाता है, आवृत्ति, शोर के स्तर और आवाज की तरह अलग-अलग मापदंडों द्वारा एक कृत्रिम भाषण तरंग बनाता है।

फार्मेंट सिंथेसिस तकनीक द्वारा निर्मित कृत्रिम, रोबोटिक-साउंडिंग भाषण मानव भाषण के लिए गलत होने की संभावना नहीं है। ध्वनिक ग्लिट्स, जो कि कॉन्टेनेटिव सिस्टम में आम हैं, मुख्य रूप से इस तकनीक में समाप्त हो जाते हैं। भाषण रिकॉर्डिंग के व्यापक डेटाबेस की अनुपस्थिति के कारण, ये कार्यक्रम अपेक्षाकृत छोटे हैं क्योंकि वे एम्बेडेड सिस्टम में उपयोग करते हैं जहां प्रसंस्करण के लिए शक्ति सीमित है।

मानक प्रश्नों और कथनों के अलावा कई प्रकार के वॉयस टोन और भावनाओं को व्यक्त करना संभव है क्योंकि प्रारूप आधारित सिस्टम आउटपुट के सभी पहलुओं पर पूर्ण नियंत्रण प्रदर्शित करते हैं। उदाहरण के लिए, कई उल्लेखनीय वीडियो गेम ने इंटरैक्टिव भाषण के लिए प्रारूप संश्लेषण प्रौद्योगिकी का उपयोग किया है।

यह भी देखें 9 रैखिक गति उदाहरण: विस्तृत स्पष्टीकरण

कलात्मक संश्लेषण

मानव मुखर पथ मॉडल के आधार पर भाषण ध्वनियों को उत्पन्न करने के लिए जिस विधि का उपयोग किया जाता है उसे आर्टिक्यूलेटरी संश्लेषण कहा जाता है। इसका उद्देश्य भाषण कलाकारों को एक या अधिक तरीकों से अनुकरण करना है। यह भाषण के विकास की समझ हासिल करने और ध्वनिविज्ञान पर शोध करने का एक तरीका प्रदान करता है।

इस तरह के एक मॉडल में कॉर्टिकुलेशन स्वाभाविक रूप से होने वाला प्रभाव है, और यह ग्लोटल स्रोत के गुणों, मुखर सिलवटों के साथ वोकल ट्रैक्ट के संबंध और कैसे सबग्लोटल सिस्टम, नाक ट्रैक्ट और साइनस गुहाएं इस मॉडल के माध्यम से मानव जैसी भाषण की पीढ़ी को प्रभावित करती हैं।

आर्टिक्यूलेटरी सिंथेसिस में आमतौर पर दो अलग-अलग घटक शामिल होते हैं: वोकल ट्रैक्ट, जिसे कई उप-घटकों में विभाजित किया जाता है, और संबंधित क्रॉस-सेक्शनल रीजन को वोकल कॉर्ड विशेषताओं के प्रतिबिंब की ओर पैरामीट्रिक रूप से उपयोग किया जाता है। ध्वनिक मॉडल में, एक विद्युत एनालॉग ट्रांसमिशन लाइन प्रत्येक क्रॉस-अनुभागीय क्षेत्र का अनुमान लगाती है।

मुखर पथ का अनुकरण समय के संबंध में क्षेत्र के कार्यों में दिखाई देने वाले परिवर्तनों के अधीन है। प्रत्येक ध्वनि को आवंटित लक्ष्य विन्यास मुखर पथ आंदोलन की गति को निर्धारित करता है। यदि ठीक से निर्माण किया जाता है, तो आर्टिक्यूलेटरी सिंथेसाइज़र वास्तविक भाषण उत्पादन में शामिल प्रक्रियाओं को दोहराने के लिए फ्रिकिटिव्स और प्लोसिव्स और मॉडलिंग कोआर्टिक्यूलेशन बदलाव विकसित करने में हर प्रासंगिक प्रभाव को पुन: उत्पन्न कर सकता है।

1970 के दशक के मध्य में, हास्किंस प्रयोगशालाओं में, फिलिप रूबिन, टॉम बेयर, और पॉल मेर्मेलस्टीन ने प्रयोगशाला प्रयोगों के लिए आमतौर पर इस्तेमाल किया जाने वाला पहला आर्टिकुलेटरी सिंथेसाइज़र बनाया।

HMM- आधारित संश्लेषण

यह "छिपे हुए मार्कोव मॉडल" का अनुसरण करके एक सांख्यिकीय पैरामीटर संश्लेषण है। हम्म एक साथ इस पद्धति में आवृत्ति स्पेक्ट्रम, मौलिक आवृत्ति और भाषण की लंबाई को मॉडल करें। अधिकतम संभावना मानदंड पर निर्मित भाषण तरंगों को स्वयं एचएमएम से बनाया गया है।

कम्प्यूटेशनल बायोलॉजी में एक छिपा हुआ मार्कोव मॉडल (HMM) एक गणितीय तकनीक है जिसका उपयोग ज्यादातर जैविक अनुक्रम मॉडलिंग के लिए किया जाता है। एक अनुक्रम को इसके कार्यान्वयन में एक असतत स्टोचस्टिक विधि के आउटपुट के रूप में तैयार किया गया है, जो अनुक्रमिक राज्यों के एक सेट के माध्यम से आगे बढ़ता है जो पर्यवेक्षक से 'छिपी' हैं।

सिनवेव सिंथेसिस

साइनवेव सिंथेसिस, या साइनवेव आवाज, फार्मेंट्स (प्रमुख ऊर्जा बैंड) के लिए शुद्ध स्वर सीटी को प्रतिस्थापित करके भाषण को संश्लेषित करने की एक विधि है। फिलिप रूबिन ने 1970 के दशक में हास्किन्स प्रयोगशालाओं में अवधारणात्मक प्रयोगों के लिए उत्तेजनाओं के स्वचालित उत्पादन के लिए पहला सिनवेव सिंथेसिस सॉफ्टवेयर (एसडब्ल्यूएस) बनाया।

सिन्वेव स्पीच एक अजीबोगरीब घटना है, जिसमें भाषण सुविधाओं में से कुछ को एक साथ रखे गए साइनसोइड्स द्वारा लिया जाता है - जो कि वे ज्यादातर मामलों में समान नहीं होते हैं। उच्च समझदारी तीन साइनसोइड्स का उपयोग करके प्राप्त की जा सकती है जो पहले तीन भाषण फॉर्मेंट की आवृत्ति और आयाम को ट्रैक करते हैं।

डीप लर्निंग-आधारित सिंथेसिस

एचएमएम-आधारित दृष्टिकोण के विपरीत, डीप लर्निंग-आधारित पद्धति स्पष्ट रूप से ध्वनिक विशेषताओं के लिए भाषाई विशेषताओं का मानचित्रण करती है, जिसमें अंतर्निहित तंत्रिका संबंधी आंकड़े सीखने में बेहद सफल साबित होते हैं। लोगों ने अध्ययन की लंबी परंपरा में विभिन्न मॉडलों का सुझाव दिया है जो भाषण संश्लेषण के लिए डीप लर्निंग-आधारित विधियों का पालन करते हैं।

यह भी देखें Precipitation Reaction: A Comprehensive Guide to Chemical Interactions

भाषण संश्लेषण के लिए एक उपयोगी उपकरण बन गया है ध्यान लगा के पढ़ना या सीखना प्रशिक्षण डेटा की विशाल मात्रा का शोषण करने में सक्षम। हाल ही में, गहन शिक्षण तकनीकों या यहां तक कि एंड-टू-एंड सिस्टम पर अधिक से अधिक शोध किए गए हैं, और अत्याधुनिक सफलता प्राप्त की गई है।

एआई एमएल डीएल 1 — छवि स्रोत: मूल फ़ाइल: अविमनु Avim६ 786 एसवीजी संस्करण: तुकीजाल्वा, एआई-एमएल-डीएल, सीसी बाय-एसए 4.0

सितंबर 2016 ने WaveNet की शुरुआत को चिह्नित किया Deepmind, कच्चे ऑडियो तरंगों का एक गहरा जेनरिक मॉडल। इसने स्पष्ट किया कि गहरी सीखने-आधारित मॉडल कच्चे तरंगों को मॉडल कर सकती हैं और अभिव्यक्ति उत्पन्न करने के लिए स्पेक्ट्रोग्राम या विशिष्ट पूर्व-संसाधित भाषाई विशेषताओं जैसे ध्वनिक विशेषताओं से अच्छा प्रदर्शन कर सकती हैं।

एंड-टू-एंड सिस्टम के लाभ-

एकल प्रणाली का उपयोग करके पाठ विश्लेषण की सीमित क्षमता।
सुविधा इंजीनियरिंग की सीमित राशि।
मौजूदा विशेषताओं के समृद्ध कंडीशनिंग और नए लोगों के लिए आसान अनुकूलन।
बढ़ी हुई स्वाभाविकता और समझदारी
मल्टी-स्टेज मॉडल की तुलना में अधिक मजबूत।

एंड-टू-एंड सिस्टम के नुकसान-

धीमी आक्षेप की समस्या का अस्तित्व।
कम मजबूत आउटपुट भाषण में कम डेटा परिणाम होता है।
संघटक दृष्टिकोण की तुलना में सीमित नियंत्रण क्षमता।
फ्लैट अभियोक्ता को प्रशिक्षण डेटा पर औसत के साथ विकसित किया जाता है।

भाषण संश्लेषण में शामिल चुनौतियां

संदर्भ के आधार पर एक ही वर्तनी वाले अलग-अलग उच्चारित शब्दों का आवास।
एक का विस्तार करने के लिए कैसे की संज्ञा। आसपास के शब्द, संख्या और विराम चिह्न के आधार पर। उदाहरण के लिए, 1465 'एक हजार चार सौ पैंसठ' हो सकता है या 'एक चार छह पांच', 'चौदह पैंसठ' या 'चौदह सौ पैंसठ' के रूप में भी पढ़ा जा सकता है।
संक्षेप में अस्पष्टता। उदाहरण के लिए, 'इन' के लिए 'इंच' को 'इन' शब्द से अलग किया जाना चाहिए।
डिक्शनरी आधारित दृष्टिकोण (डिक्शनरी में प्रत्येक शब्द को देखना और टेक्स्ट-टू-फोनेम प्रक्रिया का सही उच्चारण चुनने के लिए शब्दकोश में विस्तृत उच्चारण के साथ उच्चारण करना) किसी भी शब्द के लिए पूरी तरह से विफल हो जाता है, जो इसमें पाया जा सकता है शब्दकोष।
नियम-आधारित दृष्टिकोण (उनके उच्चारण के आधार पर उनके उच्चारण का मूल्यांकन करने के लिए, शब्दों पर नियम लागू किए जाते हैं, या 'पढ़ना सीखने का तरीका' का दृष्टिकोण।) पाठ-से-फोनेमी प्रक्रिया विफल हो जाती है क्योंकि योजना असामान्य वर्तनी या उच्चारण को ध्यान में रखती है क्योंकि नियमों का परिष्कार काफी बढ़ जाता है।
आम तौर पर स्वीकृत उद्देश्य प्रदर्शन मानकों की कमी के कारण भाषण संश्लेषण प्रणालियों के विश्वसनीय मूल्यांकन में कठिनाई।
वाक्य की पिच समोच्च की शिफ्ट, इस पर निर्भर करता है कि यह एक सकारात्मक, पूछताछ या विस्मयादिबोधक अभिव्यक्ति है।

मेकनम व्हील्ड रोबोट पर पिछले लेख के लिए, यहां क्लिक करें.

यह भी पढ़ें:

एषा चक्रवर्ती

मेरी पृष्ठभूमि एयरोस्पेस इंजीनियरिंग में है, मैं वर्तमान में रक्षा और अंतरिक्ष विज्ञान उद्योग में रोबोटिक्स के अनुप्रयोग की दिशा में काम कर रहा हूं। मैं निरंतर सीखता रहता हूं और रचनात्मक कलाओं के प्रति मेरा जुनून मुझे नई इंजीनियरिंग अवधारणाओं को डिजाइन करने की ओर झुकाए रखता है।
भविष्य में लगभग सभी मानवीय क्रियाओं का स्थान रोबोट ले लेंगे, मैं अपने पाठकों के लिए इस विषय के मूलभूत पहलुओं को आसान लेकिन जानकारीपूर्ण तरीके से लाना चाहता हूँ। मैं एयरोस्पेस उद्योग में प्रगति के साथ-साथ अपडेट रहना भी पसंद करता हूं।