データ・タング(数据堂科技) AIの学習用データ整備に特化 面倒な作業を請け負うスタイルで急成長

データ・タング(数据堂科技) AIの学習用データ整備に特化 面倒な作業を請け負うスタイルで急成長

データ・タング(数据堂科技) AIの学習用データ整備に特化 面倒な作業を請け負うスタイルで急成長の画像

【中国・北京発】AI(人工知能)の学習用データ整備に特化したデータ・タング(数据堂)が、この1月、日本に進出した。AIの性能を高めるには、AIが学習しやすいよう規則化された学習用データが不可欠。AI開発のおよそ8割が学習用データの取得や整備に費やされるとされる。データ・タングはこの部分を丸ごと請け負うことで、AIのアルゴリズムやアプリケーション、サービスを開発するベンダーの作業工数やコストを軽減。高性能なAIを効率よく実現できるよう支援するユニークなビジネスモデルを構築している。旺盛なAI活用需要を背景に、近年、急成長しているAI関連ベンダーだ。●工数の8割がデータの取得と整備
 中国のIT企業が数多く集まる北京・中関村。近年ではAI(人工知能)関連の企業の集積度が高まっており、2011年に創業したデータ・タングもその1社だ。データ・タングの特徴は、AIの性能を高めるのに欠かせない学習用データを収集し、AI学習に使えるよう整備する工程に特化している点。AIエンジンやアプリケーションを開発する企業は多いが、学習用データの収集・整備に特化するビジネスモデルは「中国国内のみならず、世界的に見てもとてもユニークな存在」だと、創業者の斉紅威CEOは胸を張る。
 グループの社員数はおよそ500人の体制。データ整備を極力自動化することで、最小限の人員で効率よく作業を行っている。2018年12月期の売上高は約1億元(約16億円)。旺盛な学習データの需要に支えられ、売上高は毎年40〜50%程度の勢いで伸びている。今年1月には日本市場にも本格的に進出した。
 画像や音声の認識といったAIは、整備済みのデータを学習させることで性能が高まる。例えば、顔認識であれば、映し出された画像のどの部分が人の顔で、目はどこにあって、性別、おおよその年齢などを分かるようにするには、それなりの規模の学習用データが必要になる。音声会話やチャットボットについても同様だ。
 学習用データを取得し、AI学習用に適したデータ形式に揃えるのは手間がかかる作業で、「AIを使ったサービスやアプリケーション開発に必要な工数のおよそ8割がデータ取得、整備に費やされる」という。データ・タングは、この8割の部分を請け負うことで、AIをより低コストで、効率よく活用できるよう支援する。
●幅広い業種でAI活用が進む
 AI活用市場を見渡してみると、スマートフォンの普及とともに急成長した米国のGAFAや、中国の百度(バイドゥ)、アリババ、騰訊(テンセント)――いわゆるBATと呼ばれる企業を中心にAI活用が急速に進んだ。彼らはAI学習用のデータをオンラインで独自に収集。AIの性能を飛躍的に高め、従来になかった利便性の高いAI活用型のサービスを次々と打ち出した。そして、これからは自動車や電機、エネルギー、金融、不動産、教育といった幅広い業種でAIの活用が急ピッチで進むと見られている(図1参照)。
 大手ネット系企業は、自分たちでデータを収集、整備することが可能だが、そうしたデータの扱いに慣れていない業種では、データ収集のハードルは高いと言わざるを得ない。とりわけ個人を特定できるようなデータは、データ保護の観点から難易度はより高くなる。さらに、業種によっては汎用的な画像や音声の認識ではなく、業務に特化した画像や語彙の収集が必要になる。データ・タングでは、個人情報の保護や、業務特化型のデータ収集にきめ細かく対応していくことで、「今後、AI活用が進む多様な業種・業態の需要を取り込んでいく」方針だ。
●DX推進が日本のAI活用を後押し
 データ・タングが、日本市場へ本格参入を決めたのも、日本国内におけるデジタルトランスフォーメーション(DX)推進の流れのなかで、これまでAIと接点が薄かったような業種・業態でも、AIを活用したビジネス変革が進むと見込まれるからだ。ここでネックになるのが、データの収集と整備が思いのほか工数がかかる点。この部分を丸々請け負うことで、日本の幅広い業種・業態におけるAI活用を後押し、結果的に売上増につながると見ている。
 手間がかかるデータ収集や、集めたデータをAIが学習しやすいよう適正化する作業は、データ・タングが北京から100キロ余り離れた保定や、上海から内陸に入った南京、合肥といった都市に開設した「データファクトリー」と呼ばれる拠点で主に行っている。集めたデータを、まるで近代的で自動化された工場のように、流れ作業で整備、適正化。複数のユーザー企業向けのデータをデータファクトリーに集約し、効率よく整備することで高い品質を維持し、コストを抑える手法を確立させ、競争力を高めている。
 ここからは、データ・タングの幹部へのインタビューを通じて、同社のビジネス戦略をより詳しくレポートする。
 1975年、中国河北省生まれ。98年、河北工科大学機械工学科卒業。2001年、同大学院修士課程修了。04年、中国科学院自動化研究所にて人工知能のパターン認識で博士号取得。同年NEC中国研究所に入社。知的情報処理研究部長、上級研究員を務める。06〜07年、スタンフォード大学コンピューターサイエンス学科客員研究員。11年、数据堂(北京)科技を設立、CEOに就任。中国コンピューター協会ビッグデータ専門委員会、同協会YOCSEF(Young Computer Scientists & Engineers Forum)学術委員会のメンバーも務める。●「AIとデータ」は「小麦粉とパン屋」の関係
 AIの学習用データの整備に特化したユニークなビジネスを手掛けるデータ・タング。AIアプリケーションやエンジン、アルゴリズムを開発するベンダーやユーザー企業とは、「競合」ではなく「協業」の関係が成り立つ。例えるならば、「小麦粉の卸」と「パン屋、ケーキ店、うどん屋」の関係に類似し、業種・業態に合わせて最適な「小麦粉=学習用データ」を提供する。ここからは、業務全般を統括する副総裁COO、技術担当で共同創業者のCTO、マーケティング責任者、そして日本法人社長のそれぞれの幹部へのインタビューを通じて、データ・タングをより立体的に見ていく。
 データ・タングの心臓部となるのが河北省の保定や南京、合肥に開設する「データファクトリー」だ。取得したAI学習用のデータは、このデータファクトリーに集約され、AIが学習しやすい規格に合わせて修正されたり、アノテーションと呼ばれる属性情報を付与していく。
 先進運転支援システム(ADAS)用の学習データであれば、歩行者や自転車、道路標識、樹木、建物などの識別を行い、歩行者なら歩行者、樹木なら樹木といった具合に属性情報をつけていく。運転者の表情から「眠そうだ」「注意散漫だ」といった判断ができるようなデータも揃える。また、ファッション(服飾)用の学習データであれば、ワンピースやスカート、上着、ネクタイの付帯情報を付け加えることで、AIはより効率よく、どんな服装なのかを認識できるようになる。
 AI技術を駆使するなどして、こうしたデータ処理の8割を自動化できたとしても、2割は人手で修正しなければならず、どうしても人手が必要となる。データ・タングの従業員の半分ほどをデータファクトリーをはじめとするデータ整備に割り当て、「最後は人の目で確認して、品質を維持している」と、データ・タングの業務全般を統括する何鴻凌・副総裁COOは話す。
 創業時からこれまで、データ・タングはデータ整備の自動化、効率化に力を入れてきた。どれだけ自動化できるかでコストが決まり、競争力を大きく左右する。データファクトリーは、データ整備のノウハウの集大成であり、日本向けのビジネスでも、このデータファクトリーをフルに活用して、ユーザー企業が求めるAI学習用データを提供していく。
 データ・タングの立ち位置を分かりやすく例えれば、「小麦粉の卸業者」(何COO)だという。ユーザー企業は「パン屋」「ケーキ店」「うどん屋」とさまざまな業態があり、それぞれに適した小麦粉を卸販売する。現実に当てはめると、ADASやセキュリティ、コンタクトセンター、翻訳、小売り、エネルギー、スマートシティなど多様な分野でAIは活用されており、それぞれに適したデータ形式に加工して販売する。データ・タングはユーザー企業と競合するAI領域には進出せず、相互に協力関係が築ける立ち位置を維持する(図2参照)。
 AIのアルゴリズムやエンジン、アプリケーションを開発するITベンダーやユーザー企業は数多くあるが、その前工程の学習用データ整備に特化したビジネスモデルが評価されるかたちで、中国国内のみならず、すでに米国や韓国でのビジネスが軌道に乗りつつある。今回、日本市場に進出することで海外ビジネスを一段と伸ばしていく。
 AIの学習用データには、人の顔をはじめ個人情報を含むケースがある。近年では個人情報保護の観点からデータを保護する動きが世界各国・地域で見られる。データ・タングでは、中国をはじめ進出先の日本、米国、韓国などの法規制に準拠した合法的なデータであることに特別な注意を払っている。とりわけ個人を特定できるデータについては、データの取得後、特別な加工を施して「加工後のデータから個人を特定できないようにする技術開発も行った」と、共同創業者で技術全般を担当する豊強沢共同創業者CTOは話す。
 具体的には、顔認識では複数の人の顔をランダムに合成して、架空の人物像をつくることで、元の個人にさかのぼれないようにする。人の肉声を収録した場合も、AI学習の精度に影響が出ないよう声紋を除去するなどして、個人の特定を不可能にするといった加工を施している。
 個人情報を含むデータの取得に当たっては、すべて本人の同意を得ているが、その上で個人を特定できないよう加工する多重的な保護の仕組みをつくっている。こうして保護されたデータは、19年末時点で2.5ペタバイトの容量に達しており、データの種類や量は日々増えている。ユーザー企業の要望に適合し、その企業が活動する各国・地域のデータ保護規制に対応したデータをすぐに提供できる点をデータ・タングの大きな強みにしている。
 ユーザー企業によっては、自社で取得したデータをデータ保護の観点から外部に出さないケースもある。データ・タングの強みは、徹底的に自動化、標準化したデータファクトリー設備を使ってのデータ整備にある。こうしたケースの場合は、例えばクラウド上にユーザー企業とデータ・タングの担当者だけがアクセスできる閉じた作業空間をつくり、そのなかだけで作業をする技術開発にも取り組む。
 データファクトリーは、物理的なセキュリティや、権限を持つ担当者しかユーザーデータに触れられない認証の仕組みなどを揃えており、「ユーザー企業に、当社のデータファクトリーに見学にきてもらい、その目でセキュリティの堅牢さを確かめてほしい」(豊CTO)と、データ保護に関してユーザー企業から信頼してもらえる技術の開発や、設備の拡充に力を入れている。
 データ・タングの馬艶・マーケティングマネージャーは、「マーケティングが成功する基本は『天の時、地の利、人の和』にある」と話す。ネット企業が先行していたAI活用だが、これからは自動車、電気、エネルギーといったあらゆる業種・業態でAI活用が進む。日本市場に目を向けるとDX推進を追い風に、データを価値に変える動きが活発化している。
 アジア太平洋地域(APAC)で産業規模が大きいのは、なんと言っても日本市場であり、馬マーケティングマネージャーは、「日本ではDX推進という『天の時』、既存の産業セクターの規模が大きく、伸びしろの大きい市場が存在するという意味で『地の利』がある」と話す。「人の和」については、中国と日本の両方の市場に精通したビジネスパートナーである成都維納軟件(成都ウィナーソフト)グループとの出会いがあった。この1月に開設した日本法人は、すでに日本に拠点がある成都ウィナーソフトグループと協業のもと立ち上げたものだ。
 奇しくも、創業者の斉CEOと豊CTOは、ともにNEC中国法人の同僚。日本の情報サービス市場にも精通しており、人脈もある。NEC時代、豊CTOは機械学習の一種のディープラーニング(深層学習)の研究に従事していた。そのときに課題となったのが、ディープラーニングで必要となる大量のデータを揃えるのに多大な手間がかかったこと。
 本来的なAIの研究よりも、顔や声といったデータを個人から許諾を得た上で集めることのほうに時間が取られた経験を経て、「じゃあ、許諾済みのデータを大量に集めたら世の中のAIの発展に大いに役立つし、ビジネスになる」(豊CTO)と考え、データ・タングの起業につながっている。
●「安全で、素早く、品質よく」を柱に
 データ・タングは、今年1月、日本法人を設立した。設立に当たっては日本と中国の両方の市場でビジネスを手掛ける成都ウィナーソフトグループが協力しており、代表取締役社長にはウィナーソフトグループ副総裁兼広州分公司総経理、グループ会社のウィンリッヂ取締役常務執行役員を兼務する神部育也氏が就任している。
 幅広い産業でAI活用が進むいま、AIを賢くする“糧”となるのが学習用データであり、「データをどう収集し、AIが学習しやすいよう加工するのかは、日本の多くのユーザー企業やITベンダーの課題として横たわっている」と神部社長は指摘。このAI活用に当たっての共通の課題が共有されつつある今こそ、「学習用データ整備の専門会社であるデータ・タングにとって日本進出の最適なタイミング」だと捉えている。
 日本のユーザー企業は、自ら取得したデータを外部に出すことに抵抗を感じるケースが多いことが見込まれるため、いかにセキュアな環境で、データ・タングが強みとする高度に自動化されたデータの加工工場「データファクトリー」の機能を使うかがポイントになる。顔や音声の認識といった汎用的な用途であれば、データ・タングがすでに保有しているデータを使ってAIに学習させればいいが、業務でAIを使う場合、データの発生源はユーザー企業の業務に現場にあるケースがほとんどだ。
 つまり、ユーザー企業が最も多くのデータを持っており、このデータをしっかり保全した上でデータ・タングのデータファクトリーを活用することがビジネス成功のカギを握る。神部社長は、「AIを賢くするには、データの量もさることながら、日々発生するデータを学習し続けることが大切」と指摘。AI活用に積極的なITベンダーやユーザー企業、研究機関などを主な顧客ターゲットとして、安全で、素早く、品質よくデータ整備を請け負うデータ・タングのサービスを売り込んでいく。