一橋大学 小町守 教授【多言語ゼロショット学習とは?言語処理とデータサイエンスの進化に迫る!】

一橋大学 小町守 教授に独自インタビュー

データサイエンスの分野において、最近では「多言語ゼロショット学習」という革新的な手法が注目を集めています。この手法は、従来の自然言語処理の枠組みを超え、言語の壁を乗り越える可能性を秘めています。

同時に、対話型生成AIである「ChatGPT」などの技術も急速に普及しており、データサイエンスの領域で新たな扉を開いています。

一橋大学が新設したソーシャル・データサイエンス学部・研究科では、異なるバックグラウンドを持つ学生たちが集まり、多様な経験と視点を持ち寄りながら、データサイエンスにおける最新の知識とスキルを習得しています。

この記事では、「多言語ゼロショット学習」の基本原理や対話型生成AIの可能性について、一橋大学の小町教授に独自インタビューさせていただきました。

また、記事の最後ではソーシャル・データサイエンス学部・研究科の全貌に迫ります。

小町守教授の紹介
一橋大学 小町守 教授

一橋大学 ソーシャル・データサイエンス学部
小町守(こまち まもる)教授

東京大学教養学部基礎科学科科学史・科学哲学分科を卒業後、奈良先端科学技術大学院大学情報科学研究科で博士(工学)を取得。

2010年より奈良先端科学技術大学院大学助教、2013年より首都大学東京(現東京都立大学)准教授・教授を経て、2023年より現職に就任。

国立国語研究所共同研究員、東京都立大学特任教授などを兼任。

​​「多言語ゼロショット学習」の基本原理と機能​

TLG GROUP編集部:近年、人工知能の分野において、対話型生成AIが注目を集めており、特に、OpenAIが開発した「ChatGPT」は、多くの企業や自治体から活用されていますね。

まず最初に、小町様の専門分野である自然言語処理とはどういった分野であるのか、簡単にご説明いただきたいです。

小町教授:現在、自然言語処理の研究分野では、深層学習を活用した手法が広く用いられています。例えば、皆さんが利用されているChatGPTのようなモデルでは、単語ごとの関連性を深層学習で学習して対話的に文章を生成しています。

こういったシステムは、様々な言語のデータを組み合わせて用いることで、どの言語であっても適切な出力を生成できるという特徴があります。そしてそれは、深層学習によって可能となりました。

従来は日本語や英語など、それぞれの言語に特化したシステムが必要でしたが、深層学習によって言語を統合した共通の表現が得られるようになったからです。これにより、例えば、日本語で質問しても英語で回答してくれたりというように、異なる言語に対応できるようになりました。

TLG GROUP編集部:ありがとうございます。深層学習により、異なる言語間で柔軟に対応できるようになったのですね。

また、小町様が専門とされる自然言語処理の分野では、新しいアプローチとして「多言語ゼロショット学習」に関する研究や応用が注目を集めていると存じています。多言語ゼロショット学習の基本原理や機能、また研究者の中でなぜ注目されているのかについてお伺いできますか。

小町教授:多言語ゼロショット学習とは、解きたい問題に関連するその言語のデータがなくてもタスクを実行できるという特性から「ゼロ」が付けられています。

例えば、ある記事がポジティブかネガティブかを分類するような問題を解決する際に、その言語での分類問題を事前に学習することなく、言語横断的に分類できる手法のことを指します。

具体的には、日本語の記事の感情を分類する際に、事前に日本語のポジティブやネガティブな記事がどういったものであるかという学習をする必要がなく、「次の記事をポジティブかネガティブに分類してください」などと指示するだけで、記事のポジネガを分類できるようになります。

これは従来の自然言語処理では考えられていなかったことであり、深層学習の登場によって自然に実現できるようになった点が大きな進歩です。

ちなみに、研究者が注目する理由としては、Google、Apple、Facebook、Amazon、Microsoftなどの大企業が世界中でビジネスを展開する際に、異なる言語に対して同様の処理を行いたいというニーズがあります。例えば、MicrosoftのOfficeにおいては、英語で作成されたマニュアルやQ&Aなどを、他の言語にも提供したいという要求があります。

ウェブベースのQ&Aを例に挙げると、世界的には英語で投稿されることが多いですが、例えば私たち日本人は日本語で聞きたいと思いますよね。さらに言えば、日本語では Q&A を検索して見つからなくても英語のQ&Aで既に回答されているかもしれませんし、そういう内容が日本語の検索に出てきて欲しいと思うはずです。

そこで、ユーザーが他の言語で情報を得たい場合にも対応できるインターフェースが必要です。特に、話者が少ない言語でも、ユーザーが存在する限りサポートしたいという要求が、大規模な企業やグローバル企業では存在します。

また、MicrosoftはWindowsやOfficeなど、様々な言語に展開されるサービスや製品を既に持っています。一方、FacebookなどのSNS企業では、ユーザーが様々な言語を使用するため、他の言語で投稿された情報を自分のわかる言語で読みたいというようなニーズがあるので、このような言語の壁を克服するために、技術的な研究が進められています。

TLG GROUP編集部:なるほど。確かに、私たち日本人の中で英語が得意な人は少ないので、日本語で提供されると非常にありがたいですね。

小町教授:その通りです。例えば、ChatGPTが提供する情報にアクセスできるのは英語を理解できる人だけであったなら、日本ではあまり普及しなかったと思います。しかし、日本語で質問しても適切に回答してもらえるという利点があったため、その技術が日本でも急速に広まったのではないかと考えています。

​​自然言語処理技術の革新と研究における課題

TLG GROUP編集部:小町様はいつから自然言語処理の研究を行われているのでしょうか。

小町教授:自然言語処理の研究に参入したのは大学院時代からです。2005年に入りましたので、10年ほど前になります。また、学部では哲学を専攻していました。

TLG GROUP編集部:元々哲学を専攻されていたのですね。哲学からこのような研究に関心を持った理由などはございますか。

小町教授:たまたまですね。元々、哲学の中で言語哲学に興味を持っていました。言語がどのように構造化され、私たちが意思疎通できる仕組みについて研究したかったことが理由です。

言語哲学では、自分が頭の中で作った「文法的に正しくない」とか「文法は正しくないけど意味は通じる」例文を使って議論することがあります。しかし、そうした議論では根拠に乏しいと感じる部分もありました。

そこで、データに基づいたアプローチによって、文の意味を表現したり、意味を共有するためのコミュニケーション手法を研究したいと考え、哲学と言語、そしてコンピューターを活用して、言語の意味を解析する自然言語処理の分野に進学することにしました。

TLG GROUP編集部:そのような経緯から研究を始められたのですね。お話を伺いますと、約10年にわたり研究されているとのことですが、研究上の課題についてお尋ねしてもよろしいでしょうか。

小町教授:大学院に入学した当初は、機械翻訳に関する研究を志しておりました。特に、統計的機械翻訳という手法が注目されていた時期でした。

当時、機械翻訳では自前で対訳辞書を作成し、翻訳の規則を定め、言語の専門家が辞書やルールをチェックする方法が一般的でした。しかし、この方法では多くの言語ペアに対応することは難しいと考えられました。そのため、統計的手法を用いて辞書や翻訳規則を自動生成する技術が1990年代に登場し、2000年代からその流れが加速しました。

大学院に進学すると、この統計的手法と言語学的知見、各言語の特性を融合させた研究に興味を持ち、研究を開始しました。しかし、統計的機械翻訳の研究を学位論文として取り組むことは難しく、サイドプロジェクトとして進めることが多く、この課題は非常に難しいと感じました。

例えば、統計的手法を用いて翻訳に関する知識を生成する部分は、深層学習が登場するまでは力技的なアプローチとなっており、文法が似ていてデータが豊富な言語ペアでは一定の成果が見られますが、文法が大きく異なる言語ペアではうまく機能しないことが課題となっていました。

具体的には、ドイツ語と英語は言語的にも近く、単語レベルでも色々な知識が共有できるため、ある程度のデータがあれば翻訳が可能でした。一方、日本語と英語のように文字や言語の特性が異なる言語ペアでは、大規模なデータがあっても翻訳の精度が向上しづらい状況が続いていました。

しかし、深層学習の登場により、テキストを一旦ベクトルに変換してから計算する手法が開発され、日本語と英語のように文法が異なる言語ペアでも、非常に流暢な出力を得ることができるようになりました。

現在では、Google翻訳などでも深層学習を用いた機械翻訳が広く利用されており、まるで人間が翻訳したかのような翻訳結果が得られます。勿論、専門家が見ると不自然な部分が多々ありますが、一般の方にとってはそれほど違和感がないと思われます。

TLG GROUP編集部:ますます精度が向上しているのですね。

小町教授:英日翻訳では、入力に関しては、英文の内容をより高度に理解できるようになっています。また、出力に関しては、日本語として不自然な表現が減少しています。

とは言え、例えばGoogle翻訳では文を越えた翻訳は難しいなど、まだまだ苦手な部分もあります。しかし、ChatGPTを使った翻訳では、記事全体を丸ごと入れて翻訳した場合でも、比較的良い翻訳が得られることがあります。

ChatGPTは、大規模なウェブデータを使用して学習し、言語モデルとして言語以外の一般的な知識も持っています。そのため、推論が必要な翻訳でも、そこそこの精度で翻訳することができるようです。

従来の翻訳システムでは文単位での学習が主流であり、文を超えた文脈を考慮した翻訳が難しかったり、一般的な知識が不足していたりすることがありました。しかし、大規模なデータを使って学習した大きな言語モデル(例えばChatGPT)では、自然な翻訳が可能となりつつあり、ここ数年で大きな進展が見られています。

TLG GROUP編集部:ChatGPTも去年から急速に普及していますね。

小町教授: 2022年の11月末から一般の人にも使われるようになりました。無料版も公開され、多くの人が体験しています。課金を厭わないヘビーユーザーや研究者向けにはGPT-4がありますが、無料のGPT-3.5でも要約などは簡単にできるため、広く利用されていると思います。

TLG GROUP編集部:東大の試験も突破しているとの噂ですね。

小町教授:科目にもよりますね。例えば、数学や世界史などの科目は深層学習が登場する以前からも比較的良い結果を出しています。一方で、英語や国語などの知識が必要な科目は深層学習前は機械には難しかったのが、英語は大規模言語モデルで解けるようになりました。

ただし、国語はまだChatGPTも苦手のようです。また、理科などの画像が含まれる科目では、最近のGPT-4Vを使用すると画像も扱えるため、医師国家試験や、司法試験などにおいても、平均的な受験者よりも優れた結果を出せる場合があります。

中でも、医師国家試験には禁忌肢問題といって、1問でも間違えると不合格になってしまう選択肢があるのですが、ChatGPTは選択肢のタブーを選んでしまうなどのミスがあるため、慎重に対策を立てる必要があります。

一方、司法試験は国によって差異があります。文化の差異が依然として乗り越えなければならない課題かもしれません。これは言語や文化の違いに関する問題ですね。

また、現代では多くの言語モデルの評価データが公開されていますが、研究や開発の中心は英語にあります。英語を理解できても、日本語が不得意な場合もあります。日本語で評価する際には、英語のデータを日本語に翻訳して利用する方法があります。ただし、この過程で文化的な違いや問題が生じることもあります。

そのため、本当に日本語で正確に評価するためには、日本語のデータセットを用意し、しっかりと整理して評価することが必要だと思っています。

この考えに基づいて、約5年間にわたりテキストの評価に興味を持ち研究を続けています。具体的には、どのようなテキストが良いのか、悪いのか、そしてそれを判断するための観点や基準について研究を行っています。

最近ではChatGPTなどを含めて、自動的に多くのテキストを生成することが可能になりました。しかし、そのテキストが良いものか悪いものかを判断する目を、今後は我々自身が持たなければならないと考えています。

良さが言語だけで決まるのか、実際の事実と照らし合わせて判断するのかなど、様々な側面があります。例えばフェイクニュースなども多く作成できますが、何が問題なのかを含めて判断するためのデータや評価する尺度を作成するようなことに、今精力的に取り組んでいます。

先週は言語処理学会という、自然言語処理の日本国内最大の学会がありました。その中で、言葉の評価に関するテーマセッションを主催しましたが、驚くべきことに発表は予想を上回る18件も集まり、非常に注目されていると感じています。

「ChatGPT」など対話型生成AIにおける応用の可能性

TLG GROUP編集部:先ほどもお話に上がった「ChatGPT」など対話型生成AIにおける応用の可能性についてもお伺いできますか。

小町教授:生成AIには画像、音声、テキストなど様々なタイプがありますが、それぞれに利点と欠点があります。

例えば、画像や音声の生成では、フェイク画像やフェイク音声を簡単に作成できることが挙げられます。存在しない場面の画像を生成したり、特定の人物が話していない音声を作成したりることが可能です。

テキスト生成に関しても、同じようなテキストを簡単に生成できます。例えば、X(旧 Twitter)などでインプレッションを増やすために自動生成された投稿が広告として掲載され、収益化されることもあります。

特に悪意や被害者が明確に見える場合は対策がしやすいですが、政党がフェイクニュースを使用して世論を誘導するなど、明確に被害者が見えない悪用も存在します。このような悪用を防ぐためには、法制度や規制の仕組みを適切に整備することが重要だと考えています。

また、対話に関して言うと、ChatGPTなどのインターフェースは、対話的な操作が可能であることがポイントですが、対話という観点から見ると、これらの技術はあくまでテキストベースの対話に限定されており、本当の対話ではないという意見もあります。

最近のサポートツールやインターフェースでは、対話的な操作が可能である一方で、実際には検索エンジンのような機能にとどまっている場合もあります。

例えば、サイトによってはページを開くと自動的にウインドウが開き、一定の質問に対して適切な応答を返すことができるようになっていますが、これはあくまで質問応答であり、複雑な処理が必要な対話とは異なります。

一般ユーザーにとっては、ChatGPTの対話的な操作ができるところが大きな利点となりますが、それだけでなく、AIが適切な情報をまとめて提供してくれる点も重要です。これにより、ユーザーは検索エンジンなどに頼らずに、必要な情報を簡単に取得することができます。

検索エンジン企業などが大規模言語モデルの研究開発に参加する背景には、このような対話的なインターフェースの需要が高まっていることへの危機感があると考えられます。

TLG GROUP編集部:先ほど触れられたディープフェイクやフェイク画像に関連して、一般的にはそのリテラシーについての懸念が高まっていますが、この問題が解決されるにはどのくらいの時間が必要だと思われますか。

小町教授:私は比較的早い時期に解決されると考えています。個人の見解によって解決までのサイクルが長いと考える慎重派と短いと考える楽観派に分かれると思いますが、私は技術的な進展に関しては楽観的であり、当たり前の状況が早く訪れると予想しています。

おそらく、5年から10年の範囲で一般的に利用されるようになり、当たり前の時代が到来するでしょう。

ただし、法的・倫理的な課題の解決や規制の整備には1年や2年では不十分でしょう。普及までに時間的な余裕がある方が、世代も含めて人間の認知面でもより良い結果をもたらすと考えていますが、法律や倫理など社会的な受容が急速な技術的な進展に追いついていない状況には懸念を抱いています。

特に教育分野での問題は現在最も難しいものです。以前は課題を出すだけでしたが、今ではChatGPTに聞けば回答が得られてしまうため、通常のレポート課題が困難になっています。

試験ではインターネットアクセスを制限することは可能ですが、レポートの場合、自宅で調べられる状況では問題が生じます。そのため、個人の能力を正確に評価するためには、逆にChatGPTを使う前提で評価するというような課題の設計にする必要があるかもしれません。

語学学習に関する議論が先週の言語処理学会でも行われました。翻訳技術の進化により、外国語学習の意義についても議論が盛んになっています。

例えば、翻訳技術が発展すれば、別の言語を学ばなくてもコミュニケーションが可能になるという考え方もあります。翻訳できるスマートグラスなどの便利なツールが普及すれば、言語学習の必要性について再考する必要があるかもしれません。

これまでの技術の進展により、最先端の研究成果が一般に普及するまで20年かかっていたものがわずか数年で利用可能になるようになりました。

例えば、ChatGPTも2018年にGPTが論文として公表され、一般の方々がChatGPTとして利用できるようになったのは4年後の2022年です。機械翻訳に至っては、ニューラル機械翻訳が登場してからGoogle機械翻訳に採用されまでは、たったの2-3年です。

前述のような新しい技術やツールを使いこなすことが、今の小学生や中学生にとっては一般的になっています。また、就活をする大学生も、エントリーシートなどの作成が容易に行えるようになっています。

こうした変化により、仕事の進め方や構造についてより深く考える必要があります。日本においては、従来の効率の悪い仕事のやり方が残っているという課題もありますが、生成AIの技術を活用することで、過去に時間を要していた作業も迅速に行えるようになります。

TLG GROUP編集部:ChatGPTの登場により、現在の仕事の在り方が大きく変化しているとも言われていますね。

小町教授:新しい技術の導入により、仕事の性質が変化していますが、必ずしも仕事が減少するというわけではありません。

例えば、文章作成においては、以前はプロの方に発注していたものが、生成技術を用いることで迅速に結果が得られるようになりました。このような技術の発展により、社内で処理できる範囲の業務は発注する必要がなくなる傾向にあります。

イラストや音声なども同様で、プロの方に依頼する必要があるほどの品質を要しない場合には、自動生成技術を活用することが増えています。アイデアがあれば8割程度のクオリティであればすぐに実行に移せるので、新しいアイデアを提案することの価値は非常に高まっていると考えます。逆に、そのアイデアを100%のクオリティで実現する価値は徐々に低下しています。

日本のビジネス文化は品質に厳しいことで知られており、他国と比較するとサービスの品質が高いとされています。しかし、これは維持が難しい状況であり、国際競争力が低下しているとの指摘もあります。

海外市場では高値で売れる商品でも、日本市場では価格が大幅に下がってしまいます。実際、私は最近3月にイギリスのケンブリッジから帰国しましたが、7ヶ月間イギリスに滞在している間に給料や物価の違いを実感しました。同じような仕事であっても、イギリスでは2倍くらいの給与がいただけます。物価も2倍ですが。

TLG GROUP編集部:そんなに違うんですね!

小町教授:やはり、日本で暮らしていると、比較的安価で多様なサービスや、一定水準の品質のものを手に入れることができるため、経済格差に気づきにくいかもしれません。しかし、様々な効率の低さが残存されていることで、全体としてはまずまずの仕事ができる一方で、全員が低賃金を受け取る状況になっています。

将来的にこの格差がどれだけ広がるかを想像すると、一部の人々が大幅に高額の収入を得る一方で、他の人々がほとんど収入を得られない状況が現れる可能性があります。このような状況はアメリカなどでも見られますが、高収入を得られる人々は快適な生活を送ることができる一方で、収入が少ない人々は生活が困難になる可能性があります。

この問題には良い面もありますが、急速な進展が最も大きな問題となります。急速な変化は社会的に世代間の対立などにつながる可能性があると考えています。

TLG GROUP編集部:将来の課題として注目されますね。

小町教授:実際、かなり近い将来に起こる問題だと思います。おそらく10年程度のスパンで現れるでしょう。

日本は比較的まだ大丈夫な状況だと思いますが、韓国は非常に大きな問題に直面しています。家を購入することも難しく、教育に関するプレッシャーも非常に高く、現在の出生率が0.7という状況からも、子供たちにも絶望的な状況が広がっています。

日本も同様に、10年から15年のスパンでこれらの問題に対処しなければなりません。そうでないと、子供を持つことが難しくなるという状況になるかもしれません。

TLG GROUP編集部:物価もどんどん上昇していますね。

小町教授:物価の上昇は今後も続く可能性がありますが、それに伴って給料が同じように上昇するわけではないことが問題です。おそらく、最低時給が2,000円程度にならないと、世界的な水準にならないと考えています。

そのためには、今行われている作業を大幅に自動化し、効率化することが必要です。結局、残る仕事は人間が行わなければならない仕事であり、肉体労働や感情労働、責任を負う必要がある仕事が残ることになります。

しかし、これらの仕事は多くの人が避けたがるタイプの仕事です。肉体労働は過酷であり、人の話を聞くことや指示を出すことも精神的に負担がかかります。

一方、これらの困難な仕事を行うことで報酬を得ることができるため、簡単な仕事しかしたくないという人たちにとっては仕事が減ってしまう可能性があります。

したがって、問題は仕事がなくなることよりも、効率化の結果残る仕事はみんながやりたがらない仕事であるということです。やりたいと思う人には高額な報酬が得られるという状況が生まれる可能性があります。

TLG GROUP編集部:その差が大きく開く可能性があるということですね。

小町教授:新しい状況に適応できるなら問題ありませんが、適応できなくなる年齢層が存在し、そのような人たちは困難な状況に直面する可能性が高いと考えています。現時点では、まだ大学生よりも若い世代は比較的問題が少ないと思いますが、20代や30代の世代が最も影響を受けるでしょう。

したがって、リスキリングという考え方が重要であり、これまでのキャリアを積んできたが環境が変わったために働き方を変えることを考える人々にとって、大学に戻って新しいスキルを学ぶことが容易になっている社会であるべきです。さもなければ、変化したくないという人たちが増え、仕事の機会が減少する可能性があると考えています。

TLG GROUP編集部:非常に興味深いですね。また、先程の「多言語ゼロショット学習」が今後直面するであろう課題についてもお伺いしてもよろしいでしょうか。

小町教授:先程途中で述べました通り、言語に関する問題において最も大きな障壁は文化の違いです。ウェブ上には多くの言語が存在しますが、英語が中心であり、英語の文化を単純に翻訳するだけでは日本語の文化と合致しない場合もあります。そのため、特定の問題に対応する際には文化に関する理解が欠けると、誤った応答を生成してしまうことがあります。

また、日本語は実際には世界の言語の中でかなりのリソースを持っています。ウェブのデータを集めてみると、半分ぐらいが英語で、日本語はその中で約4パーセント程度ですが、それでもトップ4に位置しています。

日本に拠点を置く企業でも、様々な言語でビジネスを展開したいという場合には、日本語よりもリソースが少ない言語に関連する作業も行わなければなりません。世界には数千の言語が存在すると言われていますが、そのうちの多くの言語はデータが乏しいか、あるとしても標準化されていません。

このような状況では、それぞれの言語に関するデータの不足がより顕著に現れ、内容を正しく理解できない場合や、データを出力したいが語彙が適切でない場合などが発生します。

日本語においても、様々な文章が電子化されていると考えられますが、紙の書籍には存在するものの、古文のようにコンピュータで処理できるデータが少ない文章も存在します。そのため、データが不足している言語資源を整備したり、その言語に固有の特別な処理を行うことは、研究や開発において重要であると考えています。

一橋大学のソーシャル・データサイエンス学部の魅力

TLG GROUP編集部:小町様が在籍される一橋大学のソーシャル・データサイエンス学部・研究科は、社会科学とデータサイエンスの融合を目指し、社会的な問題や課題に対してデータ駆動型のアプローチで解決策を提供することを目的とされていますね。

貴学部で学ばれることにより、具体的にどのようなスキルを身につけられるのでしょうか。学部のご紹介も兼ねて、ご説明いただけますと幸いです。

小町教授:日本全国でデータサイエンスの学部や学科が立ち上がっています。

データサイエンスは料理にたとえれば包丁のようなものです。何を料理するかは個々の料理人次第です。社会科学の総合大学である一橋大学は、商学部、経済学部、法学部、社会学部など、幅広い分野に強みがあります。データサイエンスを用いてこれらの分野を調理し、解決策を提供しています。

例えば順天堂大学のように医療系の分野が強い大学では、ヘルスデータサイエンスに注力しており、医療データを活用した研究や解析を行っています。日本初のデータサイエンス学部がある滋賀大学もまた独自の特色を持っており、高等商業学校を母体とした経済学部の伝統があるので、経済学や経営学などをベースとしたデータサイエンスに力を入れています。

一橋のソーシャル・データサイエンス学部に入学する学生の中には、理系出身者も多くいます。東大や東工大では後期入試が実施されていないことを理由に、前期入試で東大や東工大を受験した学生が後期入試でデータサイエンス学部を受験するケースがあります。

また、入学後は、理系出身者でも社会科学関連の授業を受講する必要があります。逆に、文系出身者でも数学やプログラミングの授業は必修です。特に1年生は社会科学関連の授業が主体であり、データサイエンスに関連する授業はほとんど数学です。

なぜデータサイエンスにおいて数学を学ぶのかというと、数学を学ばないことには先の勉強に繋がらないかもしれないからです。したがって、両方の分野をバランスよく学んでもらっています。

TLG GROUP編集部:文系の学生がデータサイエンスの学部に多くいらっしゃることに驚きました。

小町教授:私自身も学生の時は教養学部に所属していました。そこでは理系の学科が提供しているDNAのPCR法といった遺伝子解析など、様々な実験や理系のゼミの授業を受けました。興味に合わせて様々な分野を学べることは、教養学部ならではの魅力だと思います。

専門性を深めたい場合は、工学部や専門性の高い学部に進学することも良いでしょう。ただ、興味を持って幅広く学びたい人にはとても良い学部だと感じています。

TLG GROUP編集部:幅広く学べてジェネラリストとして成長できる学部は、倍率も高そうですね。

小町教授:確かに1年目は、入試の特集や広報活動が功を奏しており倍率が高かったですが、今年は落ち着いてきた感じがします。

現在、横浜市立大学や名古屋市立大学にもデータサイエンス学部が設置されました。他の大学でもデータサイエンスの学部・学科が増えて、分散化が進むとよりいいですね。

文科省も、特に文系学部出身者が就職に難しさを感じる傾向があるため、理系の学部の増設に予算を充てたりしています。データサイエンス学部や学科は、その両方の要素をうまく組み合わせることができるため、日本各地で設置が進んでいるようです。

私自身も当初は文系学部に進学する予定でしたが、大学入学後に数学やプログラミングの重要性を理解し、文系の学問に加えて定量的な見方も学ぶことが必要だと感じました。

政策決定や経営などでの決断は、イメージで決断するのではなく、データを基にしてリスクを見極めることが肝要です。そのためにも、数学やプログラミングの知識をしっかりと身につけることが重要だと考えています。

例えば、グラフの作成方法ひとつでも騙そうと思えばいくらでも騙すことはできます。そのため、騙し方や騙され方を知らないと、簡単に誘導されてしまう可能性があります。

現在の生成AIも同様で、生成AIが作成していることを疑っていれば、間違いに気づくことができます。しかし、全く生成AIかどうか疑っていなかったら、全てが人間によって書かれたものだと思ってしまい、気づかない可能性があります。

その結果、知らず知らずのうちにコントロールされてしまう危険性があります。したがって、人工知能の知識や統計の知識を持ち、それがどのように活用されているかを知っておくことは、他者から騙されないためにも重要です。

TLG GROUP編集部:なるほど、自己防衛のためにも理系科目を学ぶことが重要なのですね。

小町教授:そうですね。実際に自己防衛のためにも、知識としてどのようにして他者に騙されるかを理解する必要があります。経済学部や経営学部、商学部などに進学する学生で、数学も必要だと認識し学んでいる人も一部いますが、日本では伝統的に文系の学部の定員が多い傾向にあります。

特に、一部の文系学生は数字に対する苦手意識を感じることがあります。そこで諦めてしまうのは、よくありません。仕事が将来的になくなってしまう可能性があります。

根気や努力が必要となるでしょうが、数学やプログラミングが苦手な場合でも、それを克服することで効率的に仕事を進めることができるようになりますし、10年、20年単位で仕事の仕方が激変しても生き残れる確率が上がります。

TLG GROUP編集部:ありがとうございます。効率的な仕事を進めるためにも、理系科目の知識は必要不可欠なのですね。

最後に、ソーシャル・データサイエンス学部・研究科に興味を持つ学生に向けて、メッセージをお願いできますか。

小町教授:ソーシャル・データサイエンス学部・研究科は新しくできた学部ですので、まだ教科書やカリキュラムが完全には整備されていない状況です。現在一期生が入ってきて、実際の学びの中でカリキュラムを試行錯誤しながら改善しています。その過程に参加し、新しい学問の発展を楽しめる方にとっては非常に適した環境です。

もしも王道や既存の教科書を求めるのであれば、少し向いていないかもしれません。ただし、未知の分野でチャレンジすることに興味を持っている方にとっては、私たちの研究科は大いにウェルカムな場所です。是非、自分の可能性を広げるために、ソーシャル・データサイエンス学部・研究科を検討してみてください。

TLG GROUP編集部:お話を伺うなかで、改めて非常に面白そうな学部だと感じました。

小町教授:現時点では、データサイエンスの仕事やデータサイエンティストという職業名は徐々に増えていますが、将来的には「データサイエンティスト」という名前の職業が確実に存在するかどうかは確信していません。

個人的な見解としては、そこまで固定化されていく領域ではないと考えています。ただし、様々な職業でデータサイエンスに相当する業務が一部に含まれていることは間違いありません。

例えば、企画や調査でデータサイエンスが活用されるのは言うまでもありませんが、営業の際に効果的にどのような商品をどの顧客にアプローチすべきかを分析するためにデータサイエンスを利用したり、人事管理の中で育成計画を策定する際には、どのタイミングでどのような研修を行うかをデータに基づいて判断したりすることもあるでしょう。

様々な場面でデータを活用することで効率を高める考え方は勿論ありますが、それを専門的に担う職種を新たに設けるのか、それぞれのポジションで取り組むのかは、企業によって異なるでしょう。

前述した通り、将来的にデータサイエンスが独立した職業として確立されるかどうかは不確実ですが、その時には自分で仕事を創造できる力が重要になると考えています。自分でできると思っている方は、そのような能力を身につけるための学部や学科が適していると思います。

TLG GROUP編集部:自分の道を切り拓くという意味では非常に魅力的ですね。

小町教授:今後、データサイエンスの学部が増えていくと、単にデータサイエンスのスキルがあるだけでは自動的に仕事が見つかるとは限りません。学部での短期間の勉強だけではデータサイエンティストとしての仕事に就けないかもしれません。

その場合、大学院で専門性を高めることで能力を高めることができますし、大学院まで行った人であれば仕事の中でデータサイエンス的な分析をする割合は増えるでしょう。

また、チャンスを得るためには自己アピールが重要になります。「データサイエンス」と言っても各大学で行っている内容が異なるため、その学部で自分がどういうことを学んできて、どういうスキルを持っているかを自己アピールしなければなりません。自己アピールが不足していると、不利になる可能性があります

TLG GROUP編集部:なるほど、専門性の高い分野であるからこそ、就活で自身の経験やスキルをしっかりと伝える必要があるのですね。

小町教授:また、どちらが良いということではないですが、「けものみち」を進んだり、新しいことを決めるのが楽しいと思う人と、整備された状況で作業することを好む人とでは、好みや得意分野が異なります。

したがって、伝統的な学問に興味を持つ人たちは、いわゆる漢字1文字の学部、法学部、商学部、工学部などに進学する方が適性があるかもしれません。

TLG GROUP編集部:興味深いお話をありがとうございます。ちなみに、社会人経験を積みながら大学に入学することができるのでしょうか。

小町教授:はい、実際に多くの社会人経験者が大学院に入学しています。彼ら彼女らは実務経験でデータサイエンスの分野の重要性を認識し、大学でデータサイエンスを学んでいます。

大学院では、授業を受けて専門知識を身につけた後、修士論文を執筆することで専門性を深めることができます。現在働いている人が学生だった頃には経験できなかった学問に触れる貴重な機会です。

TLG GROUP編集部:なるほど、色々な経歴の方がいらっしゃるんですね。

小町教授:現在の教員には、情報・AI分野や統計学分野だけではなく、法学や政治学、経済などのさまざまな専門分野で研究してきた人たちがいます。

例えば、文系出身でデータサイエンス的な仕事はしていないが統計やプログラミングなどのスキルを習得したいと考えている方や、理系出身で開発の仕事をしているが社会科学系の基礎知識を身に付けたいという方もいて、両方の分野どちらもそれぞれ学びたいという方がいます。

ちなみに、修士の1年生と学部の1年生は、去年の4月から入学しました。現在修士で入学している学生は、全員が他の学部を卒業した経験を持つ人々です。

TLG GROUP編集部:ありがとうございます。例えば、社会人で入学される人は、平日は大学院に通われていて、休日に仕事をされているということですか?

小町教授:色々な方がいらっしゃいます。仕事を続けながら学んでいる方もいます。また、授業は基本的には対面で行われますが、受講スケジュールを工夫して調整している人もいます。

例えば、対面での授業日に複数のコマを詰め込んで、1年目は週に3-4日通い、翌年以降は論文執筆に集中するというスケジュールが考えられます。また、週1-2日だけ通える場合、長期履修制度を利用して4年間かけて少しずつ履修して2年分の学費で4年間通うこともできます。

TLG GROUP編集部:それぞれの方々に合わせて柔軟な対応ができるというのは素晴らしいですね。

小町教授:はい、そうですね。本学でも、オンラインでの授業や土曜日や夕方の開講が可能であれば良いのですが、現在の状況では研究科を開設したばかりであるため難しいです。

例えば、JAIST (北陸先端科学技術大学院大学)という国立の大学があり、メインキャンパスは石川県にあるのですが、東京にサテライトキャンパスがあります。こちらは社会人のみですが、土日や夕方に通うことができます。

また、都立大学の下に産業技術大学院大学があるのですが、こちらも修士課程は土曜日と夕方の受講が可能な社会人向けの大学院大学です。その他だと、立教大学や上智大学も平日夜や土曜日の受講が可能なデータサイエンス分野に関連する大学院を持っています。今後も少しずつですが、このような学部が増えていくと思われます。

個人的には、仕事をしながら修士号を取得したいと考える方にとって、夕方や土曜日、またはオンデマンドで授業を受けられる環境が望ましいと思っています。日本では、そうした学び方が増えていく傾向にあると考えています。

単に私たちの大学だけが注目されるよりも、データサイエンス分野自体が成熟していき、裾野が広がっていくことが重要だと考えています。そのうち、「同僚にデータサイエンス学部出身者がいますよ」というような世の中になってほしいですね。

まとめ

TLG GROUP編集部:本日はお時間いただき、ありがとうございました。小町教授にインタビューして、下記のことが分かりました。

独自インタビューで分かったこと
  • 自然言語処理の研究では、深層学習を活用した手法が広く用いられ、生成AIの登場により言語を統合した共通の表現が可能になった。
  • 多言語ゼロショット学習は、解きたい問題に関連する言語の特徴を事前に学習せずに言語横断的に分類できる手法である。
  • 新しい技術やツールの普及により、過去に時間を要していた作業も迅速に行えるようになっており、仕事の進め方や構造について深く考える必要がある。
  • 言語に関する問題の大きな障壁は文化の違いであり、特にデータが不足している言語においては特別な処理が重要である。
  • データサイエンスは料理における包丁のような役割を果たし、個々の選択次第で未知の分野に挑戦できる興味深い分野である。

自然言語処理とデータサイエンスの新しい進歩により、言語の統合表現や多言語処理の可能性が広がりました。これらの技術やデータ分析の手法は、仕事の進め方や構造に進歩をもたらしています。

今年、日本各地でデータサイエンスを学ぶ学部や学科が設置されていますが、その中でも一橋大学のソーシャル・データサイエンス学部・研究科は、学生が新たな知識とスキルを学びながら社会問題に対するデータ駆動のアプローチを学ぶことができることから特に注目されています。

この記事を読んで興味を持った方は、是非一度、一橋大学のソーシャル・データサイエンス学部・研究科について詳しく調べてみてください。仕事と学びを融合させたキャリアを目指す方にとって、新たな道が開けるかもしれません。

取材・文:TLG GROUP編集部
記事公開日:2024年4月2日