Blog

インテリジェントバーチャルアシスタント(IVA):音声アノテーション による巨大な市場規模

インテリジェントバーチャルアシスタント(IVA)市場規模は、2020年には約40億米ドルの規模に達しました。そして、この市場は、2022年に177.2億米ドルの市場価値から、2030年までに1,760.5億米ドルに達すると推定され、予測期間中に38.82%のCAGRで成長すると予想されています。

AIによるバーチャルアシスタントの可能性と有用性は、技術的な側面と行動的な側面の両方からもたらされます。アプリ上でのアシスタントに対する需要の高まりと相関して、データトレーニングのためにAIシステムに継続的に入力されるデータがあります。 逆に言えば、AIを搭載したバーチャルアシスタントを実現するために最も重要な機能の一つが、データ入力、つまり音声アノテーションです。

1. インテリジェントバーチャルアシスタント(IVA)の急成長する業界

まず、IVA(Intelligent Virtual Assistant)とは、AIを搭載した仮想アシスタントというもので、人間と同じような応答ができるように開発されたソフトウェアのことです。 このアシスタントにより、質問をしたり、手配をしたり、さらには実際の人間のサポートを要求することができます。

1.1. なぜが台頭してきたのか?

IVAは、主に顧客対応のコスト削減のために広く利用されています。また、ライブチャットやその他の形式のカスタマーエンゲージメントに迅速に対応することで、IVAは顧客サービスの満足度を高め、時間を節約するのに役立ちます。

IVAは、上記のような外部パフォーマンスに加えて、顧客情報を収集し、会話や顧客満足度調査の回答を分析することで、組織が顧客と企業のコミュニケーションを改善するのに役立てています。

 

バーチャルアシスタントと音声アノテーション

バーチャルアシスタントと 音声アノテーション

 

インテリジェントなバーチャルアシスタントは、企業のアバターのような役割を果たします。顧客からの問い合わせを動的に読み取り、理解し、対応することができ、最終的には様々な部門のマンパワーのコストを削減することができます。

このようなIVAは、インフラのセットアップコストを省くことができるため、大企業に多く導入されています。これが、近年のIVAの収益が非常に高い理由であり、今後もそうなる可能性があります。

1.2.IVAは何ができるのか?

AIを活用した仮想支援の使い安さや導入状況はいたるところで見られます。オペレーティングシステムやモバイルアプリケーション、あるいはチャットボットでも目にすることができます。機械学習やディープニューラルネットワークなど、AI技術の進歩を展開することで、仮想アシスタントはいくつかの特定のタスクを簡単にこなすことができます。

バーチャルアシスタントは、オペレーティングシステムでは非常に一般的です。これらのアシスタントは、カレンダーの設定、手配、アラームの設定、質問、さらにはテキストの作成などをサポートします。このようなマルチタスクのアシスタントは大規模なものであり、このようなアプリケーションはオペレーティングシステムの中だけに限られると思われるかもしれません。

しかし、モバイルユーザーやモバイルアプリの数が急増していることから、多くの起業家やスタートアップ企業が、自社製品のアプリ内にバーチャルアシスタントを導入し始めています。これにより、さまざまな分野で必要とされるデータ入力の需要が高まっています。

例えば、ヘルスケアサービスのアプリでは、医学用語などヘルスケアに関連する特定の 音声アノテーション が必要です。

ResearchAndMarkets.comの「インテリジェントバーチャルアシスタント(IVA)の世界市場2019-2025年」に関するレポートによると、「Industry Size, Share & Trends」と題して、次のように指摘しています。スマートスピーカーは最も速いペースで発展しており、IVAの主要ドメインとして浮上している。IVAでは、Text to Speechが最大のセグメントです。2025年には153億7,000万ドル以上の売上に達すると予測されています。

IVAの市場で優位に立っている国はヘルスケアを主要産業とする北米です。主要なプレイヤーは、Apple Inc.、Oracle Corporation、CSS Corporation、WellTok Inc.、CodeBaby Corporation、eGain Corporation、MedRespond、Microsoft、Next IT Corporation、Nuance Communications, Inc.、True Image Interactive Inc.などです。

このレポートを通して、AI搭載のバーチャルアシスタント市場の発展と成長の可能性が急成長していることがわかります。異なるドメインごとに、IVA導入のための異なるアプローチがあります。

より良いサービスやビジネスの発展のために、企業は効果的なカスタマーエンゲージメントを求めており、そのため、様々な製品に実装される仮想アシスタントの数は増加しています。

現在、インテリジェントバーチャルアシスタント市場は、導入率の高さとIT投資の増加を背景に、主にBFSI産業の垂直軸によって牽引されています。しかし、自動車およびヘルスケア分野は最も収益性の高い垂直セグメントであり、予測期間中もこの傾向を維持すると思われます。

2.  音声アノテーション はIVAにどのように役立つのか?

通話、ショッピング、音楽配信、コンサルティングなど、生活のあらゆる場面でバーチャルアシスタントが登場するようになり、音声データ処理の必要性が高まっています。また、Speech to TextやText to Speechによるアノテーションだけでなく、より高度な形式であるPart of スピーチタギングや音声学によるアノテーションも求められています。

バーチャルアシスタントのための音声アノテーション

バーチャルアシスタントのための 音声アノテーション

 

IVAシステムが適切に動作するためには、開発者は以下のような様々なアプローチの対話方法を考慮しなければなりません。

Text-to-text::テキスト・ツー・テキストのアノテーションは、必ずしもIVAの動作に直接関係しません。しかし、ラベル付けされたテキストは、機械が人間の自然言語を理解するのに役立ちます。適切に行われなければ、アノテーションされたテキストは、機械に文法的なエラーを起こさせたり、顧客からの問い合わせを誤って理解させたりする可能性があります。

Speech-to-text: スピーチ・ツー・テキスト アノテーションは、音声ファイルをテキストに書き起こし、通常はワープロで編集や検索ができるようにするものです。Siri、Alexa、Google Assistantなどの音声認識アシスタントがその代表例です。

Text-to-speech: テキスト・トゥ・スピーチ アノテーションでは、幅広い声質(男性、女性)とアクセント(北部、中部、南部アクセント)の自然な音声を合成することができます。

Speech-to-Speech: スピーチ・ツー・スピーチ(音声合成)は、最も高度で複雑なアノテーションです。これにデータを入力することで、AIはユーザーの音声を理解し、それに応じた回答やパフォーマンスを行うことができます。

いずれにしても、データ、声、スピーチ、会話などを収集し、機械学習アルゴリズムがユーザーからの入力を理解できるようにアノテーションする必要があります。

音声 アノテーションサービス では、理解しやすく有用なデータセットを提供するために多くの努力が必要です。また、アノテーターの採用やトレーニングにも多くの時間を要し、作業時間は言うまでもありません。

Recruitment

パッシブ・リクルートメントで技術系人材の探し方・採用方法

IT業界では、優秀な人材がどんどん少なくなってきており、人事担当者は、潜在的な候補者を増やすための方法を模索しています。

Stack Overflowの開発者を対象とした最近の年次調査によると、積極的に仕事を探している回答者はわずかに15%であり、新しい仕事の情報を聞くことに興味を持っている開発者は約75%であるということです。これらの数字を見たら、人事担当者は従来のように「すでに仕事を探している候補者」を採用するだけにとどまらず、一般的なIT人材の75%を占める「受動的な候補者」のポテンシャルを把握すべきだということがわかります。

人事担当者は、パッシブ・リクルートメントの技術を認識することで、人材プールを効果的に活用し、拡大することができ、その結果、最も困難なITポジションを埋めることができます。

 

1. 受動的な候補者とは?

受動的な候補者とは、新しい仕事の機会を積極的に探していない人のことです。受動的な候補者は、すでに雇用されており、多くの企業が求めているスキルや経験を持っています。

 

2. なぜ人事スペシャリストはパッシブ・リクルートメントを行うべきなのか?

Stack Overflowの調査によると、IT人材の求職状況について、回答者は以下のように3つのグループに分類されました。

  • 現在、仕事を探している積極的な候補者(15.2%)
  • 雇用されているが、新たな機会を求めている受動的な候補者(58.7%)
  • 雇用されており、新しい機会を考慮しない超受動的な候補者(15.2%)

これらのグループの中で、受動的な求職者は最大のグループとして際立っており、需要の高い技術系の仕事に就く人事担当者にとっては、潜在的な採用ソースとなっています。

受動的な候補者は、現在雇用されており、他の雇用主でその役割をうまく果たしている可能性が高いので、人事担当者は、候補者の現在のプロジェクトを少し調べたり、相互参照チェックを行ったりすることで、候補者の潜在能力を確認し、評価する機会を得ることができます。

さらに、高度なスキルを持った候補者の市場での競争は非常に激しいものがあります。実際に、非常に優秀な積極的な候補者は、10日以内に市場から消えてしまうことが多いのです(officevibe.comが収集した統計による)。このような理由から、採用の可能性を高めるためには、採用担当者が受動敵な候補者を重視することが非常に重要です。

このグループに注目するもう一つの理由は、受動的な候補者が貴社のビジネスに影響を与える可能性が高いことです。彼らは、新しい職場で自分を変えようとする意欲が120%高いのです。さらに、これらのグループは主にシニアの技術系人材であるため、積極的な候補者と比較して、スキルアップの機会を必要とする可能性が17%低くなります。トレーニングの必要性が低いということは、必要な時間とリソースが少なくて済むということであり、これによって雇用主は多大な利益を得ることができるため、受動的な候補者は最も重要な採用ソースの一つとなっています。

 

3. 積極的な候補者と受動な候補者の違いとは?

一般的に、積極的な候補者は求職活動に対するモチベーションが高く、すべての準備が整っているので、すぐに採用プロセスを開始することができる。一方で、受動的な候補者は面接などのにすぐに参加するのが困難であるようです。そのため、採用担当者はより柔軟に、この人材を活用する必要があります。

 

受動的な候補者 積極的な候補者
1. ポテンシャル     候補者                         ……………… ……………….. ほとんどがシニアレベルの技術系人材で、積極的に仕事を探しているわけではないが、新しい仕事のチャンスに前向きな人たちです。       仕事を持っているかどうかは別にして、転職サイトやソーシャルメディアで活動している人です。彼らは、履歴書や応募書類を送り、あなたと一緒に採用活動を行う準備をしています。                                                                                            
2. プライオリティ
  • 収入が大幅にアップすることを期待する
  • 明確なキャリアパスを求め、転職先ではインパクトのある役割を求めている。
  • 福利厚生や企業文化をより重視する
  • ワークライフバランス
  • 役職の改善
  • 便利な場所
  • 給料の良い仕事  
  • 企業でのトレーニングレッスンに期待する           
3. 緊張感

なお、受動的な候補者は新しい仕事を探しているわけではありません。リクルーターが彼らのところにやってくるのです。転職したいという気持ちが彼らにはないので、リクルーターは彼らをゆっくりと見守り、彼らを温かく保つために会話を 「育てる」必要があります。

積極的な候補者は、すでに履歴書やポートフォリオを送っており、無職であるかどうかに関わらず、時間をかけて迅速な採用活動を行っています。いずれにしても、彼らは自分の時間を投資して、迅速な採用活動を行うことを望んでいます。
4. 採用プロセスの準備 履歴書やポートフォリオは使えません。採用担当者が経験やスキルを確認したいのであれば、情報を記入する別のフォームが必要です。 履歴書やポートフォリオが更新され、送付できるようになっています。

 

 

4. パッシブ・リクルーティングで成功するには?

受動的な候補者は仕事を探していないので、求人情報サイトにもアクセスしません。ソーシング戦略は、積極的な候補者を採用するための戦略とは異なるものでなければなりません。ここでは、求人情報サイト以外の場所で受動的な候補者を探す方法をいくつかご紹介します。

4.1. 組織の雇用ブランドを明確にし、強化し

採用ブランディングとは、求職者がこの会社に入りたいと思うような自社のブランディングのことで、パッシブ・リクルーティングには欠かせません。実際、Corporate Responsibility誌がAllegis Talent2と共同で実施した初の企業レピュテーション調査では、アメリカ人の75%が、たとえ失業中であっても、評判の悪い企業には就職しないと指摘されています。

受動的な候補者は、ウェブサイトやブランドのソーシャルポストに書かれていることを購入する可能性はありません。その代わりに、社員が会社についてどう感じているかを知りたいのです。すべての従業員は、社会的イメージを決定づけるブランド大使になることができます。スタッフが様々なチャンネルで自分たちの会社の歩みを真摯に表現してくれれば、雇用ブランドにスポットライトが当たることになります。また、多くの人が利用しているSNSを利用することで、既存の社員の素顔を伝え、求職者と簡単に交流することができます。この戦術は、求職者が会社の情報をもっと探したいという好奇心に火をつけることができます。

成功する雇用ブランディング・キャンペーンには、従業員からの「証言」のほかに、Employer Value Proposition(EVP)も必要です。Employer Value Propositionとは、企業文化や職場環境の面での、貴社の中核となるメリットのことです。これは、会社が提供できるものであり、候補者が就職したその日から期待すべきものです。あなたはすでに自分のEVPを知っているかもしれませんが、それをどうやって世間に届けるか、ここでマーケティング部門の出番です。ソーシャルメディアプラットフォーム、ジョブボード、マーケティングキャンペーンなどを駆使して、候補者や場合によっては顧客にEVPを明示します。

採用ブランディングキャンペーンに盛り込むべきもう一つの特徴は、あなたのプロジェクトや実績です。受動的な候補者にとっては、あなたの会社で働くことで得られるインパクトが優先されます。つまり、何かエキサイティングでチャレンジングなことに参加したいと思っているのです。あなたのチャンネルであなたのプロジェクトや実績を紹介することで、不思議に思っていた受動的候補者が、あなたの会社での就職の可能性について話をするように一歩前進したことになります。

4.2. ゆっくり準備し

受動的な候補者はすぐには動けず、積極的な候補者に比べて、新しい機会を検討するのに時間がかかります。彼らを採用する際、人事担当者は柔軟に対応し、プレッシャーを与えないようにしなければなりません。

例えば、受動的な候補者は現在仕事をしているので、勤務時間中の面接を希望しない、あるいはできない可能性があります。また、採用担当者は候補者を知ることが重要で、候補者の興味を掘り起こし、より親密になり、信頼を得なければなりません。基礎ができてから、仕事についての詳細を話し始めることができます。

相手が現職を愛しすぎていて、どんな理由があっても転職したくない場合もあることを忘れてはいけません。だから、今は誰にも心を奪われないようにしましょう。

4.3. さまざまなプラットフォームを通じた受動的な求職者のソース

LinkedInは受動的な候補者の主な情報源ですが、他のプラットフォームを試すことも必要で、それはFacebookやTwitter、ジョブボードや候補者データベースサービスなどが考えられます。

Facebookにとっては、旧来の求人情報サイトに代わる費用対効果の高いサービスであり、受動的な求職者を見つけるための格好の場となります。Facebookでは、採用担当者が選択した内容に基づいて高度にターゲット化された広告を出すことができるため、ソーシング、採用マーケティング、候補者エンゲージメントを成功させることができます。月間20億人のユーザーを抱えるFacebookは、あなたの採用キャンペーンのリーチをさらに広げます。

Twitterの場合、採用担当者は、候補者を探すのに便利な高度な検索機能をうまく活用できますし、会話や関係構築に適しているのは間違いありません。

ジョブボードや候補者データベースサービスの場合、小額の料金で数百の履歴書やポートフォリオをスカウトすることができます。候補者の連絡先が添付されています。

4.4. 受動的な求職者に合わせて、応募プロセスを簡単にし

受動的な候補者は、もともと衝動的ではないので、面接を受けるための準備もしません。つまり、履歴書を持っていなかったり、採用担当者に履歴書の送付を求められても躊躇してしまうのです。これに対処するには、フォームやシートを使って候補者に働きかけてみるとよいでしょう。

注意:候補者が退屈してしまうので、あまり多くのリンクをクリックさせないようにしましょう。さらに、ウェブ版とモバイル版の両方でユーザーエクスペリエンスを向上させ、テクノロジーに精通した候補者にあなたのプロフェッショナリズムを見てもらえるようにしましょう。

面接では、次のような質問はしないようにしましょう。「なぜ当社を選んだのですか」「当社について何を知っていますか」といった質問はしないようにしましょう。会社の技術的な特徴や文化的な特徴に焦点を当てましょう。受動的な候補者に対して適切でよく練られたアプローチをとれば、採用担当者は需要のあるトップパフォーマーやイノベーターを獲得することができます。受動的な候補者は平均的な技術者ではなく、このような才能のある人材を獲得するには多くの努力と時間が必要となります。採用ブランディング、候補者ソーシング、候補者エンゲージメントのガイドに従うことで、資源の豊富な受動的な候補者を活用するチャンスが広がります

 

5. LQAについて

LQAは、顧客のデジタルトランスフォーメーションのプロセスを支援することにより、スキルを持った若人のベトナム人をグローバル市場に送り出すことに情熱を注いでいます。

私たちと一緒にビジネスをすることで、お客様はご自身のビジネスに集中することができます。弊社は、お客様のビジネスゴールと品質に関するすべての側面に常に焦点を当てます。お客様の品質ニーズを満たすための支援を低コストで行い、効果的な品質パートナーであることを約束します。

お気軽にご連絡ください!

annotationannotation

完全自動運転車はデータアノテーションで実現できるのか?

AIとデータアノテーションの最も一般的なユースケースの1つは自律走行車です。自律走行車(または自動運転車)のアイデアは、エンターテインメントや実際の交通機関においても、常に魅力的な利用分野となっています。 かつては架空の話でしたが、情報技術の進化と長年培ってきた技術力により、自律走行が可能になりました。

 

自律走行車のためのデータアノテーション

自律走行車のためのデータアノテーション

 

自律走行車におけるAIとデータアノテーションの最も有名な実装例は、おそらくTesla Autopilotでしょう。これは、車が車線内でハンドル操作、加速、ブレーキを自動的に行い、運転の最も負担のかかる部分を支援するものです。 しかし、テスラオートパイロットは、欧米のいくつかの国でしか成功が確認されていません。ここでの本当の疑問は “テスラオートパイロットは、東南アジア諸国の混雑した道路で使用できるのか?

 

1. AI搭載の自律走行車におけるデータアノテーションの役割

人工知能(AI)がインダストリー4.0の代表的なトレンドであることは否定できません。大きな言葉や、日常生活におけるAIの「先見の明」的な見通しは実に魅力的ですが、実際にそれを実現することは見過ごされがちです。

実は、AIの実装の始まりは、何年も前に、架空の大ヒット映画でよく見かけるバーチャルアシスタントの基礎から始まっています。映画の中では、世界は機械と自動化によって支配されています。特に、車や船、飛行機などの乗り物は、AIによる制御システムによってうまく管理されています。AI開発の多面的な革新により、自律・自動運転車の成功をはじめ、上記の多くが現実のものとなりました。

1.1. 高精度のトレーニングデータ

自動運転車の重要な特徴は、ハードウェアとソフトウェアの2つです。自律走行車が正しく機能するためには、周囲の環境を感知し、人間の手を借りずに物体をナビゲートすることが求められます。ハードウェアは、道路上で車を走らせるためのものです。そのほか、自律走行車のハードウェアには、カメラや熱センサーなど、物や人の存在を検知できるものが搭載されています。その立脚点となるのが、機械学習のアルゴリズムを学習させたソフトウェアではないでしょうか。

ラベル付けされたデータセットは、前述の学習アルゴリズムの入力データとして重要な役割を果たします。これらのデータセットに注釈が付けられれば、AIソフトウェアの「学習能力」が豊かになり、したがって自動車の適応性も向上する。ラベル付けされたデータセットの精度が高ければ、アルゴリズムの性能は向上します。データアノテーションの精度が低いと、運転中にエラーが発生する可能性があり、非常に危険です。

1.2. エンドユーザーの利便性向上

一流の体験のためにお金を払わない人はいないでしょう。テスラを例にとってみましょう。テスラのモデルは、人々が無意識のうちに他の自律走行車ブランドに設定する基準、ベンチマークとなっています。デザインからオートパイロットによる自動運転の操作性まで、高級感だけでなく安全性も兼ね備えています。テスラがどのように車を設計するかは別の話です。お客様のために本当に大切なのは安全性です。すべてを “機械 “に任せるのは、最初は怖いかもしれませんが、テスラも多くの実験やAIソフトウェアのバージョンを通じてそれを保証しています。実際、テスラのオートパイロットは、欧米複数国の高速道路を容易に走行できることが証明されています。

 

自動運転車

自動運転車

 

テスラの自動運転モデルXが非常に混雑なベトナムの道路で敗北した映像を見たことがあるかもしれません。しかし、私たちは、自律走行車が最も必要とされるシナリオを振り返ってみる必要があります。 ここでの答えは、フリーウェイとハイウェイです。そして、テスラはこれらの道路でとてもうまくやれるのです。この場合のデータアノテーションの役割は、高品質のアノテーションされたデータセットを通じて、機械が高い頻度で訓練されることで、乗客の安全を確保することです。

 

2. 自律走行車の未来

自動運転がない状態から完全自動運転へと簡単に移行できるわけではありません。実際には、レベル3の「条件付き運転自動化」がやっとなのです。

  • レベル0(自動化運転なし): 車両は手動で制御されています。一部の機能は、問題が発生すると自動的に「ポップアップ」するように設計されています。
  • レベル1(運転支援)。ステアリングやアクセルの操作(クルーズコントロール)などの運転支援システムが単独で搭載されています。
  • レベル2:(部分的な自動運転):ADAS(ステアリングとアクセルの操作)に対応している車両です。ここでは、人間が運転席に座り、いつでも車をコントロールできるため、自動化は自動運転には及びません。
  • レベル3(条件付き自動運転):環境検知機能を持ち、加速して遅い車を追い越すなど、自分で判断することができます。しかし、人間によるオーバーライドが必要です。システムがタスクを実行できない場合、ドライバーは常に注意を怠らず、制御できるようにしておく必要があります。テスラのオートパイロットは、レベル3に認定されています。
  • レベル4(高度な自動運転):車両は、限られたエリア内で自動運転モードで動作できます。
  • レベル5(完全自動運転):人間の注意を必要としない車両です。ハンドルやアクセル・ブレーキのペダルもありません。。まだまだレベル5には程遠い状況です。

テスラのオートパイロットがレベル3に認定されたことで、私たちは完全な運転の自動化への道のりの半分しか進んでいません。しかし、私たちは個人的に、これらのレベル3車両の問題はAIシステムのトレーニングデータであると考えています。これまでに投入されたデータセットは非常に限られており、大海の一滴にしかすぎません。

AIシステムを学習させるには、データセットが膨大な量であることはもちろん、精度だけでなく高品質であることが求められるため、簡単なことではありません。

テスラをはじめとする自律走行車メーカーは、競争に打ち勝つために、かなりのスピードを求めています。このような企業は、自分たちでデータ処理を行うのではなく、データ処理の管理と実行を効率的に行うために、アウトソーシングベンダーの助けを求めることがよくあります。これらのベンダーは、データ収集とデータアノテーションの両方をサポートします。

データアノテーションを気にすることなく、自律的な市場に参加したいですか?LQAのコンサルティングを受けて、あなたのビジネスに最適なデータアノテーションツールを見つけてください。 専門家によるフルサポートをご希望の方は、今すぐお問い合わせください。

annotationBlogBlogBlog

データラベリングの品質を確保するための基本的なガイド

データのラベル付け品質の問題は、AI/MLコミュニティで大きな関心事となっています。このパズルを解くときに出くわす最も一般的な「原則」は、おそらく「Garbage in, garbage out」でしょう。

このように言うことで、私たちが強調したいのは、人工知能や機械学習の開発プロジェクトにおけるトレーニングデータとの基本的な法則です。AI/MLモデルに供給される質の悪い学習データセットは、操作に多くの誤りをもたらします。例えば、自律走行車のトレーニングデータは、その車が道路上で機能するかどうかの決め手になります。質の悪いトレーニングデータを使用すると、AIモデルが人間を物体と間違えたり、逆に物体を人間と間違えたりする可能性があります。いずれにしても、質の悪いトレーニングデータは事故のリスクを高めることになり、自律走行車メーカーにとっては最も避けたい事態となります。
高品質な学習データを得るためには、データ処理の過程でデータラベリングの品質保証を行う必要があります。

弊社は高品質なトレーニングデータセットを確保するために、以下の3つのアクションを行っています。AI/MLモデルに最適なトレーニングデータを提供するための基本的なガイドをご覧ください。

 

1. データラベリングの品質管理を強化するためのお客様の要求を明確化

品質の高いデータラベリングとは、単に最も丁寧にアノテーションされたデータや、最高品質のトレーニングデータを意味するものではありません。戦略的なデータアノテーションプロジェクトでは、トレーニングデータの要件を明確にする必要があります。アノテーションチームのリーダーが答えなければならないのは、どの程度の品質のデータが必要なのかということです。

データアノテーション品質を提供するベンダーとして、私たちが常にお客様にお聞きするのは、その要件です。「データセットを扱うのにどれだけ手間がかかるか」、「アノテーションの精度はどうしたいか」などです。これらの質問に答えることで、後々のプロジェクト全体のベンチマークとなるのです。

 

データラベリングの品質を確保する方法

データラベリングの品質を確保する方法

 

人工知能と機械学習の実装は非常に幅広いことを覚えておいてください。自律走行車や交通機関での一般的なアプリケーションのほか、AIやMLはヘルスケアや医療、農業、ファッションなどでもデビューしています。それぞれの業界には、何百もの異なるプロジェクトがあり、異なる種類の対象物を扱い、それゆえに異なる品質要件があります。

簡単な例として、道路のアノテーションと医療データのアノテーションを紹介します。道路のアノテーションの場合、作業は非常に簡単で、一般的な知識を持ったアノテーターがいれば大丈夫です。一方、このアノテーションプロジェクトでは、アノテーションが必要なデータセットの数が数百万の動画や写真にも及ぶため、アノテーターは許容範囲内の品質で高い生産性を維持する必要があります。

一方、医療データでは、特定の知識を持った医療分野で働くアノテーターが必要です。糖尿病性網膜症の場合、訓練を受けた医師が写真から糖尿病性網膜症の重症度を評価することで、この分野にディープラーニングを適用することができます。

 

データラベルの品質 - 医療用

データラベリングの品質:医療用

 

よく訓練された医師であっても、すべてのアノテーションがお互いに一致するとは限りません。一貫した結果を得るためには、1つのアノテーションチームが各ファイルに何度もアノテーションを行い、最終的に相関関係を得る必要があるかもしれません。それは、与えられたデータがどれだけ複雑か、またお客様がどれだけ詳細なデータ出力を望んでいるかという問題です。これらが明確になれば、チームリーダーは必要な成果を得るためのリソースの配分を考えることができます。指標と品質保証プロセスはこの後に定義されます。

また、クライアントは、アノテーションされるすべてのデータセットの「ベンチマーク」となるサンプルセットを提供する必要がある。これは、データアノテーションの品質を保証するための、最もわかりやすい手法です。完璧にアノテーションされたデータの例があれば、今度はアノテーターがトレーニングを受け、仕事のベースラインを提示することができます。

ベンチマークを理想的な結果とすることで、各アノテーターの精度やパフォーマンスを評価するための一致率の指標を算出することができます。アノテーションとレビューの両方のプロセスに不確実性がある場合、QAスタッフはこれらのサンプルデータセットを使って、どれが適格でどれがそうでないかを定義することができます。

 

2. 多層的なQAプロセス

データラベリングプロジェクトにおけるQAプロセスは、企業によって異なります。ロータスQAでは、国際的に標準化された品質保証プロセスを遵守しています。事前に設定された優先は、常にプロジェクトの開始時に明確にされます。これらの設定は1つの「ベンチマーク」にまとめられ、後にすべてのラベルとアノテーションの「ゴールデンスタンダード」として機能します。

2.1. 自己診断

このステップでは、アノテーターに自分の作業のレビューをしてもらいます。自己評価をすることで、アノテーターはプロジェクト開始時のデータアノテーションツール、アノテーション、ラベリングを振り返ることができるようになります。通常、アノテーターは、時間的にも仕事的にも大きなプレッシャーの中で仕事をしなければならず、そのために仕事に狂いが生じてしまう可能性があります。セルフチェックから始まる品質保証では、アノテーターがゆっくりと自分の仕事ぶりを見直すことができます。間違いや逸脱の可能性を認めることで、アノテーターは自分でそれを修正し、将来的にそれらを避けることができます。

2.2. クロスチェック

データサイエンス、特にデータアノテーションにおいて、「バイアス」という言葉を聞いたことがあるかもしれません。アノテーションの偏りとは、アノテーターがデータをラベル付けする際に独自の習慣を持っているため、提供されたデータに対して偏った意見を持ってしまうことを指します。場合によっては、アノテーターの偏りがモデルの性能に影響を与えることもあります。よりロバストなAIやMLモデルを構築するためには、偏ったアノテーションを排除するための有効な手段を講じる必要がありますが、そのためのシンプルな方法の一つがクロスチェックです。

 

データ・ラベリングの品質:クロスチェック

データラベリングの品質:クロスチェック

 

アノテーションの過程でクロスチェックを行うことで、作品全体の見方が変わり、アノテーターは同僚の作品の間違いやエラーを特定することができます。また、このような異なる視点を持つことで、レビュアーは偏った注釈を指摘することができ、チームリーダーはさらなる行動を起こすことができます。チームリーダーは、手直しをしたり、注釈が本当に偏っているかどうかを確認するために再度評価を行ったりすることができます。

2.3. マネージャーの評価

アノテーションプロジェクトマネージャーは、通常、アノテーションプロジェクトの日常的な監督を担当します。主な仕事は、作業員の選定と管理、データの品質と一貫性の確保などであります。マネージャーは、クライアントからデータのサンプリングを受けて、必要なメトリクスの作業を行い、アノテーターの教育訓練を実施する役割を果たします。クロスチェックが済んだら、マネージャーはアウトプットをランダムにチェックして、クライアントの要求を遵守しているかどうかを確認します。これらのチェックに先立ち、アノテーションのプロジェクトマネージャーは、品質保証のための「ベンチマークライン」を引かなければなりません。一貫性と正確性を確保するために、事前に設定した品質に満たない作業は、手直ししなければなりません。

 

3. 品質保証スタッフの関与

データラベリングの品質管理は、アノテーションチームだけに頼ることはできません。実際には、専門的で経験豊富な品質保証スタッフの関与が必須となる。アノテーション作業の最高の品質を確保するためには、品質保証スタッフのチームが必須である。品質保証スタッフは、アノテーションプロジェクトマネージャーの管理下ではなく、アノテーションチームの外にある独立した部門として働きます。
データアノテーションスタッフ全体に占める品質スタッフの理想的な割合は10%を超えません。QAスタッフは、プロジェクト内のすべてのアノテーションされたデータをレビューすることはできませんし、するつもりもありません。実際には、ランダムにデータセットを取り出して、もう一度、アノテーションをレビューします。

 

データラベリングの品質:品質保証

データラベリングの品質:品質保証

 

これらのQAスタッフは、データサンプルについて十分な訓練を受けており、アノテーションされたデータの品質を評価するための基準を持っています。これらの評価基準は、事前にQAチームのリーダーとアノテーションプロジェクトマネージャーの間で合意されなければなりません。セルフチェック、クロスチェック、マネージャーの評価の3段階のレビューに加えて、QAスタッフがアノテーションプロジェクトに参加することで、データ出力が事前に定義されたベンチマークに確実に適合し、最終的には最高レベルのトレーニングデータを確保することができます。

データラベリングの品質を向上するため、専門家の話をもっとお聞きしたいですか?ロータスQAにお気軽にお気軽にお問い合わせください