WEKO3
インデックスリンク
アイテム
{"_buckets": {"deposit": "0e53e243-cbdc-4f23-8e29-cf26aed4e969"}, "_deposit": {"created_by": 3, "id": "10016", "owners": [3], "pid": {"revision_id": 0, "type": "depid", "value": "10016"}, "status": "published"}, "_oai": {"id": "oai:kanazawa-u.repo.nii.ac.jp:00010016", "sets": ["936"]}, "author_link": ["9834", "14754", "14755", "14753"], "item_4_biblio_info_8": {"attribute_name": "書誌情報", "attribute_value_mlt": [{"bibliographicIssueDates": {"bibliographicIssueDate": "1997-12-11", "bibliographicIssueDateType": "Issued"}, "bibliographicIssueNumber": "120", "bibliographicPageEnd": "22", "bibliographicPageStart": "15", "bibliographicVolumeNumber": "97", "bibliographic_titles": [{"bibliographic_title": "情報処理学会研究報告. SLP, 音声言語情報処理"}]}]}, "item_4_description_21": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "CMS法や動的特徴は変調周波数特性を操作することにより音声認識性能が向上することが知られているが、どの変調周波数がどの程度重要であるのかという定量的な検討は行われていない。そこで本研究では、様々な変調周波数特性を持った入力に対し、音声認識性能の違いを種々の雑音環境、認識方式、特徴量のもとで調べた。その結果、以下のことが分かった: 1) 言語情報のほとんどが1~16Hzの変調周波数帯域に存在し、その中でも4Hz付近が最も重要である。2) 変調スペクトルにおいては位相情報も重要である。 3) 4Hz付近の変調周波数を含む特徴量を用いることで動的特徴量と同等以上の結果が得られる。4) 適切な中心周波数と帯域幅をもつ複数のサブバンドを変調周波数上で用いることにより、認識性能がさらに向上する。 We report on the effect of band-pass filtering of the time trajectories of spectral envelopes on speech recognition. Several types of recognizers, several types of features, and several types of filters are studied. Results indicate the relative importance of different components of the modulation spectrum of speech for ASR. General conclusions are: (1) most of the useful linguistic information is in modulation frequency components from the range between 1 and 16Hz, with the dominant component at around 4Hz, (2) it is important to preserve the phase information in modulation frequency domain, (3) The features which include components at around 4Hz in modulation spectrum outperform the conventional delta features, (4) The features which represent the several modulation frequency bands with appropriate center frequency and band width increase recognition performance.", "subitem_description_type": "Abstract"}]}, "item_4_description_5": {"attribute_name": "提供者所属", "attribute_value_mlt": [{"subitem_description": "金沢大学理工研究域電子情報学系", "subitem_description_type": "Other"}]}, "item_4_publisher_17": {"attribute_name": "出版者", "attribute_value_mlt": [{"subitem_publisher": "情報処理学会"}]}, "item_4_relation_28": {"attribute_name": "関連URI", "attribute_value_mlt": [{"subitem_relation_type_id": {"subitem_relation_type_id_text": "http://ci.nii.ac.jp/naid/110002954467/", "subitem_relation_type_select": "URI"}}, {"subitem_relation_type_id": {"subitem_relation_type_id_text": "http://www.ipsj.or.jp/", "subitem_relation_type_select": "URI"}}]}, "item_4_rights_23": {"attribute_name": "権利", "attribute_value_mlt": [{"subitem_rights": "利用は著作権の範囲内に限られる"}]}, "item_4_source_id_11": {"attribute_name": "NCID", "attribute_value_mlt": [{"subitem_source_identifier": "AN10442647", "subitem_source_identifier_type": "NCID"}]}, "item_4_source_id_9": {"attribute_name": "ISSN", "attribute_value_mlt": [{"subitem_source_identifier": "0919-6072", "subitem_source_identifier_type": "ISSN"}]}, "item_4_version_type_25": {"attribute_name": "著者版フラグ", "attribute_value_mlt": [{"subitem_version_resource": "http://purl.org/coar/version/c_970fb48d4fbd8a85", "subitem_version_type": "VoR"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "金寺, 登"}], "nameIdentifiers": [{"nameIdentifier": "14753", "nameIdentifierScheme": "WEKO"}]}, {"creatorNames": [{"creatorName": "Hermansky, Hynek"}], "nameIdentifiers": [{"nameIdentifier": "14754", "nameIdentifierScheme": "WEKO"}]}, {"creatorNames": [{"creatorName": "荒井, 隆行"}], "nameIdentifiers": [{"nameIdentifier": "14755", "nameIdentifierScheme": "WEKO"}]}, {"creatorNames": [{"creatorName": "船田, 哲男"}], "nameIdentifiers": [{"nameIdentifier": "9834", "nameIdentifierScheme": "WEKO"}, {"nameIdentifier": "40019766", "nameIdentifierScheme": "e-Rad", "nameIdentifierURI": "https://kaken.nii.ac.jp/ja/search/?qm=40019766"}, {"nameIdentifier": "40019766", "nameIdentifierScheme": "研究者番号", "nameIdentifierURI": "https://nrid.nii.ac.jp/nrid/1000040019766"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2017-10-03"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "TE-PR-FUNADA-T-15.pdf", "filesize": [{"value": "744.0 kB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 744000.0, "url": {"label": "TE-PR-FUNADA-T-15.pdf", "url": "https://kanazawa-u.repo.nii.ac.jp/record/10016/files/TE-PR-FUNADA-T-15.pdf"}, "version_id": "9ef6b767-ef69-45d3-b080-582f7e0566bb"}]}, "item_keyword": {"attribute_name": "キーワード", "attribute_value_mlt": [{"subitem_subject": "音声認識", "subitem_subject_scheme": "Other"}, {"subitem_subject": "変調周波数", "subitem_subject_scheme": "Other"}, {"subitem_subject": "Automatic Speech Recognition", "subitem_subject_scheme": "Other"}, {"subitem_subject": "Modulation", "subitem_subject_scheme": "Other"}, {"subitem_subject": "Frequency", "subitem_subject_scheme": "Other"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "journal article", "resourceuri": "http://purl.org/coar/resource_type/c_6501"}]}, "item_title": "ロバストな音声認識実現を目的とした変調スペクトル特性の検討", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "ロバストな音声認識実現を目的とした変調スペクトル特性の検討"}, {"subitem_title": "On Properties of the Modulation Spectrum for Robust Automatic Speech Recognition", "subitem_title_language": "en"}]}, "item_type_id": "4", "owner": "3", "path": ["936"], "permalink_uri": "http://hdl.handle.net/2297/14234", "pubdate": {"attribute_name": "公開日", "attribute_value": "2017-10-03"}, "publish_date": "2017-10-03", "publish_status": "0", "recid": "10016", "relation": {}, "relation_version_is_last": true, "title": ["ロバストな音声認識実現を目的とした変調スペクトル特性の検討"], "weko_shared_id": -1}
ロバストな音声認識実現を目的とした変調スペクトル特性の検討
http://hdl.handle.net/2297/14234
http://hdl.handle.net/2297/14234e56e8ec6-eb29-4376-abeb-4b6bc3494eab
名前 / ファイル | ライセンス | アクション |
---|---|---|
TE-PR-FUNADA-T-15.pdf (744.0 kB)
|
|
Item type | 学術雑誌論文 / Journal Article(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2017-10-03 | |||||
タイトル | ||||||
タイトル | ロバストな音声認識実現を目的とした変調スペクトル特性の検討 | |||||
タイトル | ||||||
言語 | en | |||||
タイトル | On Properties of the Modulation Spectrum for Robust Automatic Speech Recognition | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | journal article | |||||
著者 |
金寺, 登
× 金寺, 登× Hermansky, Hynek× 荒井, 隆行× 船田, 哲男 |
|||||
提供者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 金沢大学理工研究域電子情報学系 | |||||
書誌情報 |
情報処理学会研究報告. SLP, 音声言語情報処理 巻 97, 号 120, p. 15-22, 発行日 1997-12-11 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 0919-6072 | |||||
NCID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AN10442647 | |||||
出版者 | ||||||
出版者 | 情報処理学会 | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | CMS法や動的特徴は変調周波数特性を操作することにより音声認識性能が向上することが知られているが、どの変調周波数がどの程度重要であるのかという定量的な検討は行われていない。そこで本研究では、様々な変調周波数特性を持った入力に対し、音声認識性能の違いを種々の雑音環境、認識方式、特徴量のもとで調べた。その結果、以下のことが分かった: 1) 言語情報のほとんどが1~16Hzの変調周波数帯域に存在し、その中でも4Hz付近が最も重要である。2) 変調スペクトルにおいては位相情報も重要である。 3) 4Hz付近の変調周波数を含む特徴量を用いることで動的特徴量と同等以上の結果が得られる。4) 適切な中心周波数と帯域幅をもつ複数のサブバンドを変調周波数上で用いることにより、認識性能がさらに向上する。 We report on the effect of band-pass filtering of the time trajectories of spectral envelopes on speech recognition. Several types of recognizers, several types of features, and several types of filters are studied. Results indicate the relative importance of different components of the modulation spectrum of speech for ASR. General conclusions are: (1) most of the useful linguistic information is in modulation frequency components from the range between 1 and 16Hz, with the dominant component at around 4Hz, (2) it is important to preserve the phase information in modulation frequency domain, (3) The features which include components at around 4Hz in modulation spectrum outperform the conventional delta features, (4) The features which represent the several modulation frequency bands with appropriate center frequency and band width increase recognition performance. | |||||
権利 | ||||||
権利情報 | 利用は著作権の範囲内に限られる | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||
関連URI | ||||||
識別子タイプ | URI | |||||
関連識別子 | http://ci.nii.ac.jp/naid/110002954467/ | |||||
関連URI | ||||||
識別子タイプ | URI | |||||
関連識別子 | http://www.ipsj.or.jp/ |