G10L - Analyse of synthese van spraak; herkenning van spraak; verwerking van spraak of stemgeluid; codering of decodering van spraak of audio

[4,7,10,13]

Aantekeningen

Deze subklasse dekt niet: - inrichtingen voor de opslag van spraaksignalen of audiosignalen, die vallen onder de subklassen G11B en G11C; [10] - het decoderen van gecomprimeerde spraaksignalen t.b.v. verzending of opslag, wat valt onder de groep H03M 7\5. [10]

  • G10L 13/00

    Spraaksynthese; Tekst-naar-spraaksystemen [7,10]

    • G10L 13/02

      Methoden voor het produceren van synthetische spraak; Spraaksynthesisers [7]

      • G10L 13/027

        Concept-naar-spraaksynthesisers; Genereren van natuurlijke volzinnen uit machine-gebaseerde concepten (genereren van parameters voor tekstuele spraaksynthese G10L 13\5) [13]

      • G10L 13/033

        Stembewerking, bijv. manipuleren van de stem uit de synthesiser [13]

      • G10L 13/04

        Details van spraaksynthesesystemen, bijv. de synthesiserstructuur of het geheugenmanagement [7,10]

        • G10L 13/047

          Architectuur van spraaksynthesisers [13]

    • G10L 13/06

      Elementaire spraakeenheden die worden gebruikt in spraaksynthesisers; Aaneenschakelings-regels [7]

      • G10L 13/07

        Aaneenschakelings-regels [13]

    • G10L 13/08

      Tekstanalyse of generering van parameters voor tekstuele spraaksynthese, bijv. overzetting van grafeem naar foneem, prosodiegenerering, of bepaling van klemtoon of intonatie [7,10]

      • G10L 13/10

        Prosodieregels afgeleid uit de tekst; Klemtoon of intonatie [13]

  • G10L 15/00

    Spraakherkenning G10L 17\5 heeft voorrang) [7]

    • G10L 15/01

      Inschatten of evalueren van spraakherkenningssystemen [13]

    • G10L 15/02

      Kenmerkextractie voor spraakherkenning; Selectie van de herkenningseenheid [7,8]

    • G10L 15/04

      Segmentatie; Woordgrensdetectie [7,8,13]

      • G10L 15/05

        Woordgrensdetectie [13]

    • G10L 15/06

      Creëren van referentiemodellen; Oefenen van spraakherkenningssystemen, bijv. aanpassen aan de karakteristieken van de stem van de spreker G10L 15\5 heeft voorrang) [7,8]

      • G10L 15/065

        Aanpassing [13]

        • G10L 15/07

          aan de spreker [13]

    • G10L 15/08

      Klasseren of zoeken van spraak [7,8,10]

      • G10L 15/10

        gebruikmakend van afstandsmaten of vervormingsmaten tussen onbekende spraak en referentiemodellen [7,8]

      • G10L 15/12

        gebruikmakend van dynamische programmeertechnieken, bijv. dynamische tijdverwringing (Dynamic Time Warping = DTW) [7,8,10]

      • G10L 15/14

        gebruikmakend van statistische modellen, bijv. verborgen Markovmodellen (Hidden Markov Models = HMM) G10L 15\5 heeft voorrang) [7,8,10]

      • G10L 15/16

        gebruikmakend van kunstmatige neurale netwerken [7,8]

      • G10L 15/18

        gebruikmakend van natuurlijke taalmodellering [7,8]

        • G10L 15/183

          gebruikmakend van context-afhankelijkheden, bijv. taalmodellen [13]

          • G10L 15/187

            Waarneembare context, bijv. uitspraakregels, phonotactical beperkingen of phoneme n-grams [13]

          • G10L 15/19

            Grammaticale context, bijv. ondubbelzinnigheid van herkenningshypothesen op basis van woordvolgorderegels [13]

            • G10L 15/193

              Formele grammatica, bijv. eindige automata, contextvrije grammatica of woordnetwerken [13]

            • G10L 15/197

              Probabilistische grammatica, bijv. woord n-grams [13]

    • G10L 15/20

      Spraakherkenningstechnieken die speciaal zijn aangepast met het oog op robuustheid in nadelige omgevingen, bijv. in ruis of door spanning geïnduceerde spraak G10L 21\5 heeft voorrang) [7,10]

    • G10L 15/22

      Procedures die worden gebruikt tijdens een spraakherkenningsproces, bijv. een tweespraak tussen mens en machine [7,8]

    • G10L 15/24

      Spraakherkenning gebruikmakend van niet-akoestische kenmerken [7,13]

      • G10L 15/25

        gebruikmakend van de positie van de lippen, de beweging van de lippen of een gezichtsanalyse [13]

    • G10L 15/26

      Spraak-naar-tekstsystemen G10L 15\5 heeft voorrang) [7]

    • G10L 15/28

      Constructieve details van spraakherkenningssystemen [7]

      • G10L 15/30

        Gespreide herkenning, bijv. in client-serversystemen, voor mobiele telefoons of netwerktoepassingen [13]

      • G10L 15/32

        Meerdere herkenners die achtereenvolgens of parallel worden gebruikt; Scorecombinatie-systemen daarvoor, bijv. stemsystemen [13]

      • G10L 15/34

        Aanpassen van één enkele herkenner voor parallelle verwerking, bijv. door het gebruiken van meerdere processoren of cloud computing [13]

  • G10L 17/00

    Spreker-identificatie of spreker-verificatie [7]

    • G10L 17/02

      Voorbereidende bewerkingen, bijv. segmentkeuze; Voorstelling of modellering van patronen, bijv. gebaseerd op lineaire discriminantanalyse [LDA] of hoofdcomponenten; Selecteren of extraheren van kenmerken [13]

    • G10L 17/04

      Oefening, inschrijving of modelbouw [13]

    • G10L 17/06

      Besluitvormingstechnieken; Patroonherkenningsstrategieën [13]

      • G10L 17/08

        Gebruiken van vervormingsmetriek of een bijzondere afstand tussen probe patroon en referentiesjablonen [13]

      • G10L 17/10

        Multimodale systemen, d.w.z. gebaseerd op de integratie van meerdere herkenningsmachines of de fusie van expertsystemen [13]

      • G10L 17/12

        Scorenormalisering [13]

      • G10L 17/14

        Gebruiken van phonemic categorisering of spraakherkenning voorafgaand aan de identificatie of verificatie van de spreker [13]

    • G10L 17/16

      Verborgen Markov-modellen [HMMs] [13]

    • G10L 17/18

      Kunstmatige neurale netwerken; Connectionistic benaderingen [13]

    • G10L 17/20

      Patroonomzettingen of patroonbewerkingen gericht op een toenemende systeemrobuustheid, bijv. tegen kanaalruis of verschillende werkomstandigheden [13]

    • G10L 17/22

      Interactieve procedures; Mens-machine interfaces [13]

      • G10L 17/24

        waarbij de gebruiker wordt aangemoedigd een wachtwoord of een voorgeschreven volzin uit te spreken [13]

    • G10L 17/26

      Herkennen van speciale stemkenmerken, bijv. voor gebruik in leugen-detectoren; Herkennen van dierengeluiden [13]

  • G10L 19/00

    Synthesetechnieken voor spraaksignaalanalyse of audiosignaalanalyse met het oog op redundantievermindering, bijv. in vocoders; Coderen of decoderen van spraaksignalen of audiosignalen, gebruikmakend van bronfiltermodellen of psycho-akoestische analyse (in muziekinstrumenten G10H) [7,10,13]

    • G10L 19/002

      Dynamische bit toewijzing (voor perceptuele audiocodeerders G10L 19\5) [13]

    • G10L 19/005

      Corrigeren van fouten die worden veroorzaakt door het zendkanaal, indien gerelateerd aan het codeeralgoritme [13]

    • G10L 19/008

      Coderen of decoderen van meerkanaals audiosignalen, d.w.z. gebruikmakend van correlatie tussen kanalen ter vermindering van redundantie, bijv. joint-stereo, intensiteit-codering of matrixing [13,14]

    • G10L 19/012

      Coderen van comfortruis of stilte [13]

    • G10L 19/018

      Watermerken van audio, d.w.z. het inbedden van onhoorbare gegevens in het audiosignaal [13]

    • G10L 19/02

      gebruikmakend van spectraalanalyse, bijv. transformatie vocoders of deelband vocoders [7,10]

      • G10L 19/022

        Blokkeren, d.w.z. groeperen van geluidsmonsters in de tijd; Kiezen van analysevensters; Overlap factoring [13]

        • G10L 19/025

          Detecteren van overgangen of aanvallen voor tijd/frequentie-resolutie-omschakeling [13]

      • G10L 19/028

        Ruisvervanging, bijv. het vervangen van niet-tonale spectrale componenten door een luidruchtige bron (comfortruis voor discontinue spraakoverdracht G10L 19\5) [13]

      • G10L 19/03

        Spectrale voorspelling ter vermijding van voor-echo; Tijdelijke ruisvorming [TNS], bijv. in MPEG2 of MPEG4 [13]

      • G10L 19/032

        Kwantisatie of dekwantisatie van spectrale componenten [13]

        • G10L 19/035

          Scalaire kwantisatie [13]

        • G10L 19/038

          Vectorkwantisatie, bijv. TwinVQ audio [13]

    • G10L 19/04

      gebruikmakend van voorspellingstechnieken [7]

      • G10L 19/06

        Bepalen of coderen van de spectraal-karakteristieken, bijv. van de korte-termijn voorspellingscoëfficiënten [7]

        • G10L 19/07

          Line spectrum pair [LSP] vocoders [13]

      • G10L 19/08

        Bepalen of coderen van de excitatiefunctie; Bepalen of coderen van de lange-termijn voorspellingparameters [7]

        • G10L 19/083

          waarbij de excitatiefunctie een bekrachtigingsversterking betreft G10L 25\5 heeft voorrang) [13]

        • G10L 19/087

          gebruikmakend van gemengde excitatiemodellen, bijv. MELP, MBE, split band LPC of HVXC [13]

        • G10L 19/09

          Langetermijn-voorspelling, d.w.z. het verwijderen van periodieke redundanties, bijv. door gebruik te maken van een adaptief code-boek of een toonhoogtevoorspeller [13]

        • G10L 19/093

          gebruikmakend van sinusvormige excitatiemodellen [13]

        • G10L 19/097

          gebruikmakend van prototype golfvorm-ontledingscodeerder of prototype golfvorminterpolatie [PWI] codeerder [13]

        • G10L 19/10

          waarbij de excitatiefunctie een meervoudige puls-excitatie betreft [13]

          • G10L 19/107

            Spaarzame excitatie, bijv. door gebruik te maken van een algebraïsch code-boek [13]

          • G10L 19/113

            Reguliere excitatie [13]

        • G10L 19/12

          waarbij de excitatiefunctie een code-excitatie betreft, bijv. in code-bekrachtigde lineaire voorspelling (CELP) vocoders [7,10,13]

          • G10L 19/125

            Toonhoogte-excitatie, bijv. toonhoogte-synchrone innovatie CELP [PSI-CELP] [13]

          • G10L 19/13

            Residueel-bekrachtigde lineaire voorspelling [RELP] [13]

          • G10L 19/135

            Vectorsom-bekrachtigde lineaire voorspelling [VSELP] [13]

      • G10L 19/14

        Details die niet vallen onder de groepen G10L 19\5 tot G10L 19\5, bijv. versterkingscodering, na-filterontwerp of de vocoder structuur [7,10]

      • G10L 19/16

        Vocoder architectuur [13]

        • G10L 19/18

          Vocoders gebruikmakend van meerdere modi [13]

          • G10L 19/20

            gebruikmakend van geluidsklasse-specifieke codering, hybride decoders of object-gebaseerde codering [13]

          • G10L 19/22

            Modusbeslissing, d.w.z. gebaseerd op de audiosignaalinhoud versus externe parameters [13]

          • G10L 19/24

            Variable rate codes, bijv. voor het genereren van verschillende kwaliteiten gebruikmakend van een schaalbare voorstelling zoals hiërarchisch coderen of gelaagd coderen [13]

      • G10L 19/26

        Voor-filteren of na-filteren [13]

  • G10L 21/00

    Verwerken van het spraaksignaal of stemsignaal voor het produceren van een ander hoorbaar of niet-hoorbaar signaal, bijv. zichtbaar of voelbaar, teneinde de kwaliteit of begrijpbaarheid ervan te modificeren G10L 19\5 heeft voorrang) [7,10,13]

    • G10L 21/003

      Veranderen van de stemkwaliteit, bijv. de toonhoogte of de formanten [13]

      • G10L 21/007

        gekenmerkt door het gebruikte proces [13]

        • G10L 21/01

          Corrigeren van de tijd-as [13]

        • G10L 21/013

          Aanpassen aan de gewenste toonhoogte [13]

    • G10L 21/02

      Spraakverbetering, bijv. ruisvermindering of echoverwijdering (verminderen van echo-effecten of rondzingen in leidingzendsystemen H04B 3\5; echo-onderdrukking in hands-free telefoons H04M 9\5) [7,10]

      • G10L 21/0208

        Ruisfiltering [13]

        • G10L 21/0216

          gekenmerkt door de gebruikte methode voor het inschatten van de ruis [13]

          • G10L 21/0224

            Verwerken in het tijdsdomein [13]

          • G10L 21/0232

            Verwerken in het frequentiedomein [13]

        • G10L 21/0264

          gekenmerkt door het soort parametermeting, bijv. correlatietechnieken, nul-doorgangtechnieken or voorspellingstechnieken [13]

      • G10L 21/0272

        Stemsignaalscheiding [13]

        • G10L 21/028

          gebruikmakend van eigenschappen van de geluidsbron [13]

        • G10L 21/0308

          gekenmerkt door het soort parametermeting, bijv. correlatietechnieken, nul-doorgangtechnieken or voorspellingstechnieken [13]

      • G10L 21/0316

        door veranderen van de amplitude [13]

        • G10L 21/0324

          Details van het verwerken daarbij [13]

          • G10L 21/0332

            waarbij sprake is van het modificeren van golfvormen [13]

          • G10L 21/034

            Automatische afstelling [13]

        • G10L 21/0356

          voor het synchroniseren met andere signalen, bijv. videosignalen [13]

        • G10L 21/0364

          voor het verbeteren van de begrijpbaarheid [13]

      • G10L 21/038

        gebruikmakend van bandspreidingstechnieken [13]

        • G10L 21/0388

          Details van het verwerken daarbij [13]

    • G10L 21/04

      Tijdcompressie of tijdexpansie [13]

      • G10L 21/043

        door veranderen van de snelheid [13]

        • G10L 21/045

          gebruikmakend van het uitdunnen of invoegen van een golfvorm [13]

          • G10L 21/047

            gekenmerkt door het soort golfvorm dat moet worden uitgedund of ingevoegd [13]

          • G10L 21/049

            gekenmerkt door de onderlinge verbinding tussen de golfvormen [13]

      • G10L 21/055

        voor het synchroniseren met andere signalen, bijv. videosignalen [13]

      • G10L 21/057

        voor het verbeteren van de begrijpbaarheid [13]

    • G10L 21/06

      Omzetten van spraak in een niet-hoorbare representatie, bijv. spraakvisualisering of spraakverwerking voor gevoelshulpmiddelen G10L 15\5 heeft voorrang) [7,10]

      • G10L 21/10

        Omzetten in zichtbare informatie [13]

        • G10L 21/12

          door het weergeven van tijdsdomeininformatie [13]

        • G10L 21/14

          door het weergeven van frequentiedomein-informatie [13]

      • G10L 21/16

        Omzetten in een niet-zichtbare weergave (inrichtingen of methoden die gehoorpatiënten in staat stelt directe hoorbare waarneming om te zetten in een ander soort waarneming A61F 11\5) [13]

      • G10L 21/18

        Details van het omzettingsproces [13]

  • G10L 25/00

    Spraakanalysetechnieken of stemanalysetechnieken die niet worden beperkt tot één van de groepen G10L 15\5 tot G10L 21\5 (afschakelen van een halfgeleider-gebaseerde versterker ten behoeve van versterkingsregeling of frequentieregeling, bijv. afschakelen als bepaalde specifieke karakteristieken van een signaal worden waargenomen gebruikmakend van een spraakdetector H03G 3\5) [13,14]

    • G10L 25/03

      gekenmerkt door het soort geëxtraheerde parameter [13]

      • G10L 25/06

        waarbij de geëxtraheerde parameters correlatiecoëfficiënten betreft [13]

      • G10L 25/09

        waarbij de geëxtraheerde parameters nul-doorgang rates betreft [13]

      • G10L 25/12

        waarbij de geëxtraheerde parameters voorspellingscoëfficiënten betreft [13]

      • G10L 25/15

        waarbij de geëxtraheerde parameters formantinformatie betreft [13]

      • G10L 25/18

        waarbij de geëxtraheerde parameters spectraal-informatie voor elke deel-band betreft [13]

      • G10L 25/21

        waarbij de geëxtraheerde parameters vermogensinformatie betreft [13]

      • G10L 25/24

        waarbij de geëxtraheerde parameters de cepstrum betreft [13]

    • G10L 25/27

      gekenmerkt door de analysetechniek [13]

      • G10L 25/30

        gebruikmakend van neurale netwerken [13]

      • G10L 25/33

        gebruikmakend van fuzzy logic [13]

      • G10L 25/36

        gebruikmakend van chaostheorie [13]

      • G10L 25/39

        gebruikmakend van genetische algoritmes [13]

    • G10L 25/45

      gekenmerkt door het soort analysevenster [13]

    • G10L 25/48

      speciaal aangepast voor een bijzondere toepassing [13]

      • G10L 25/51

        voor het vergelijken of onderscheiden [13]

        • G10L 25/54

          voor het terugvinden of opzoeken [13]

        • G10L 25/57

          voor het verwerken van videosignalen [13]

        • G10L 25/60

          voor het meten van de kwaliteit van stemsignalen [13]

        • G10L 25/63

          voor het inschatten van een emotionele staat [13]

        • G10L 25/66

          voor het extraheren van parameters in verband met de gezondheidstoestand (detecteren of meten voor diagnostische doeleinden A61B 5\5) [13]

      • G10L 25/69

        voor het evalueren van kunstmatige of gedecodeerde stemsignalen [13]

      • G10L 25/72

        voor het verzenden van analyseresultaten [13]

    • G10L 25/75

      voor het modelleren van spraakkanaalparameters [13]

    • G10L 25/78

      Detecteren van de aanwezigheid of afwezigheid van stemsignalen (schakelen van de zendrichting door spraakfrequentie in tweewegluidsprekersystemen in telefoons H04M 9\5) [13]

      • G10L 25/81

        voor het onderscheiden van stemmen uit muziek [13]

      • G10L 25/84

        voor het onderscheiden van stemmen uit ruis [13]

      • G10L 25/87

        Detecteren van discrete punten binnen een stemsignaal [13]

    • G10L 25/90

      Bepalen van de toonhoogte van spraaksignalen [13]

    • G10L 25/93

      Maken van onderscheid tussen gesproken en niet-gesproken gedeelten van spraaksignalen G10L 25\5 heeft voorrang) [13]

  • G10L 99/00

    Spraakanalyse voor zover niet vallend onder andere groepen van deze subklasse [13]