YOMELの「個人情報フィルタ」機能は、フィルタ漏れを最小限に抑えるため、個人情報と疑わしい情報は極力マスキングされるように設計しております。
そのため、文脈によっては一般名詞や数字が個人情報として検知され、マスキングされる(過剰検知される)場合があります。
本記事では、フィルターの具体的な判定基準や、意図通りにフィルタリングされないケース、データの処理フローなどの詳細仕様をご案内します。
機能の設定方法については、「スペース設定 > 「セキュリティとプライバシー」タブ > 個人情報制限 > 個人情報自動除去」をご確認ください。
フィルターの種類と対象条件
発話内容が以下の条件に合致した場合、書き起こしテキストが <個人情報-〇〇> というタグに置き換わります。
| フィルターの種類 | フィルター対象(マスキングされる例) | フィルター対象外(そのまま表示される例) |
|---|---|---|
| <個人情報-住所> | 住所であり、かつ「oo丁目」以降の情報を含むもの |
・個人情報の住所と判断するに足るキーワードを含まないもの ・一般名詞と区別が難しい地名(例:清水、泉 など) ・地名のみ ・国名 |
| <個人情報-氏名> | 人名(表記方法には依存しません) ※細かな条件あり |
・企業名に敬称(「さん」 など)がついたもの ・一般名詞に敬称がついたもの |
| <個人情報-数詞> |
基本的に右欄に記載の「対象外」に該当しない数字は、すべてフィルタされます。 【フィルター対象の例】 ・電話番号、郵便番号(ハイフンの有無問わない) ・クレジットカード番号、暗証番号、口座番号 ・生年月日 |
・伝票番号、注文番号、問い合わせ番号(※1) ・単位あり数量(※2) ・単位なし数量(※3) ・固有名詞に含まれる数字(商品名 など) |
| <個人情報-組織> |
・「株式会社」「有限会社」「合同会社」などが前後につく企業名(敬称ありも対象) ・「小学校」「大学」「病院」などがつく学校名、病院名(敬称ありも対象) |
・部署名単体(〇〇本部、◇◇事業部、カスタマーサポート など) ・一般名詞+「店」が単体で出現する場合(加盟店、飲食店 など) |
【フィルターをかけない(対象外となる)詳細条件】
※1:伝票番号、注文番号、問い合わせ番号について
同じ発話のひとかたまり(吹き出し)内に、「伝票番号が〜」などの個人情報とみなされないワードが存在し、かつ周囲に他の個人情報ワードが含まれない場合は、数字であってもフィルタされずにそのまま表示されます。
| 発話例 | 認識結果 |
|---|---|
| はい、伝票番号が、853000524223です。 | はい、伝票番号が、853000524223です。(そのまま表示) |
※2:日時や数詞を後に伴う数字について
「月」「日」などの日時の情報や、「個」「名」「円」などの数量を表す言葉が続く場合、その数字は数量データとして扱われるため、フィルタされずにそのまま表示されます。
| 発話例 | 認識結果 |
|---|---|
| 電話番号は、070-xxxx-0123ですね。では4月20日の19時から4名様でお待ちしております。 | 電話番号は、<個人情報-数詞>ですね。では4月20日の19時から4名様でお待ちしております。 |
※3:単位のない数字について
明確な単位の発話がなくても、文脈から「数量や値を指している」と判断した数字はマスクされません。
| 発話例 | 認識結果 |
|---|---|
| お買い求めの個数は、3 でよろしいでしょうか? | お買い求めの個数は、3 でよろしいでしょうか?(そのまま表示) |
ただし、前後に文脈がない単なる「3」という発話は、電話番号の一部などと誤認され <個人情報-数詞> にマスクされる場合があります。
仕様上の制限(意図通りにフィルタリングされないケース)
音声認識の精度や、言葉の組み合わせによる文脈の解析結果によっては、マスキングが完全に行われない場合や、本来とは異なるカテゴリとして誤判定(過剰検知・誤検知)される場合があります。
-
1つの発話が長く、フィルタしたい発話の途中で句読点(。、)が付与されてしまった場合
数字の一部のみが認識されてしまい、フィルタ漏れが生じることがあります。
本来の発話 認識結果 カード番号は、1234-5678-9012-3456です。 カード番号は <個人情報-数詞>。3456です。 -
発音・環境音などにより、意図した言葉と異なる表記で書き起こされた場合
発音の不明瞭さや周囲の雑音などによって意図した言葉と異なるテキストに変換された場合、フィルターが検知できないことがあります。
本来の発話 認識結果 電話番号が080-xxxx-9283です。 電話番号が<個人情報-数詞>急に8、3です。 -
言葉の解析結果が、複数のフィルター条件に該当する場合
「企業名+苗字」などの連続した発話を解析する際、本来の言葉の区切りとは異なるところで分割されてマスクされてしまうことがあります。
本来の発話 認識結果 〇〇株式会社田中と申します。 <個人情報-氏名>株式会社<個人情報-組織>と申します。 -
住所の一部の解析の結果が、「人名」と判断された場合
地名などが「人名(苗字)」としても非常に高い確率で使われる単語である場合、「住所フィルター」ではなく「氏名フィルター」として判定されてしまうことがあります。
本来の発話 認識結果 〇〇県〇〇市 千種区 〇〇3-x-7 <個人情報-住所><個人情報-住所><個人情報-氏名><個人情報-住所>
個人情報フィルタの処理フローと音声データについて
個人情報フィルタは、外部のAI要約サービスへのデータ送信や、AWS S3ストレージへの保存が行われる前段階でマスキング処理を行います。
なお、YOMELおよび音声認識エンジンOlarisの内部処理のみで完結しているため、書き起こし処理の時点で生データが外部に送信されることはありません。
【処理フロー図】
⚠️音声データに関する注意
本機能でマスキングされるのは「書き起こされたテキストデータのみ」です。
録音された音声データそのものはフィルタ(消去・無音化)の対象外となります。
音声も含めて個人情報を残したくない場合は、クラウドへの音声データ保存を無効にする設定を併用してください。
設定方法については、「スペース設定 > 「セキュリティとプライバシー」タブ > 個人情報制限 > クラウドに音声データを保存しない」をご確認ください。
セキュリティ・データ管理に関するその他の記事
入力データの仕様についての詳細は、以下の記事をご確認ください。