ホーム  >   ブログ  >   データ時代における「言語」のちから

2024-03-22

データ時代における「言語」のちから

  この記事に関連する話題: デジタル・マラウイ:人道的かつ倫理的、そして持続的なテクノロジーのあり方 "AI"を紐解く

旧英国領であるマラウイの公用語は(一応)英語ということになっていて、ビジネスや政治の場では広く英語が用いられている。しかし国内を移動していると、検問や空港で顔を合わせる警察官、移民管理官、軍人の挨拶は必ずと言っていいほど Muli bwanji?(「ムリヴァンジ?」マラウイで最も話者の多い現地語・チェワ語1で、丁寧な "How are you?")である。彼・彼女の英語がどれだけ流暢であっても、まずはムリヴァンジ。

そこで僕が Ndili bwino. Kaya inu?(「ディリヴウィノ。カヤイヌ?」同、"I'm fine. And you?"の意)と返すと、にっこり笑顔で何事もなかったかのように通してもらえる。一方、ポカーンとしたり、長時間移動で疲れきった頭で Yeah, hello と適当に英語で返そうものなら、次の質問は「パスポート見せて」「滞在目的は?」「これからどこにいくの?」などである。

聞いたところによると、どうやらこれは大真面目に「言語テスト」をしていて、スクリーニングの役割を担っているらしい。現地語で挨拶ができれば、マラウイに住んで長いだろうということでパス。それができないのなら、部外者として注意を払う必要アリ、ということだ。ここで重要なのは、言語とは単に意味を交換するための「道具」ではない、という気づきだ。それは、あなたのアイデンティティやムード、ステータスなどに関する様々な「情報」を伝搬する。ゆえに、いかにそれを操るかによって、時には両者の結びつきが強固になり、時には誤解や疑念から(不必要な)緊張や対立を生む。

言語の持つ「ちから」

先の話で僕が想起するのは、人工言語・エスペラントの背景にある思想だ。世界中の母語が異なる人々のあいだで“共通言語”による意思疎通ができれば、そこには一層強い結びつきが生まれ、より深い国際理解、いずれは世界平和へとつながってゆくだろう—と設計者たちは願った。この点において、潜在的には言語のあり方が人間社会そのものを形作る、と言っても過言ではないだろう。

しかし、現実には「全人類が共通して操れる言語」というものは存在せず、話者数最大の英語が実質的な“主権”を握っている状態にある2。そのような世界では、英語以外の言語しか操ることのできない人々は、グローバルな場での社会的・経済的な機会が大きく制限されることとなる。他方、現地語に適応できない“外国人”は、滞在先で自身の無力さを思い知らされることとなる。たとえば、日本語しか話すことのできない日本に住む僕の家族は、キャリアや旅行の際の選択肢が自然と限られる。一方、日本語が扱えない訪日観光客は、国内を旅行する際にさまざまな困難が生じうる。僕も、スイスやカナダのフランス語圏で英語を話さざるを得ず肩身の狭い思いをしたことや、アジア、アフリカ、南アメリカの国々で現地の人々と一切意思疎通ができずに頭を抱えた経験は数え切れないほどある。

すなわち、社会的動物として活動をしてゆく上である特定の言語にアクセスできる(できない)という事実は、それ自体があなたがこの世界で保持するある種の「ちから」に直結する。話者個人に関する情報のみならず、そこに根差した歴史、文化、人々について多くを伝えるための媒介としての言語。その言語によって生成・内包・伝搬されるあらゆる情報の解読の可否は、極めて重要な問題だ。たとえばカナダでは、先住民言語の話者減少が、先住民の知識や歴史を次の世代に継承してゆく際の障壁となっている3。あるいは、バイリンガルをうたう移民国家として、英語:フランス語話者の偏った比率は深刻な課題となっている4

canada-bilingual-sign ▲ カナダ西海岸の英語に偏ったバイリンガリズムの例。政府組織の所在を示すサイン(右下、緑の看板)は英語・フランス語の両方で表記されるが、実際のところ、西側の州が定める公用語は英語であり、英語のみで表記されたサインの方が圧倒的に多い。

デジタル化の背景にある言語の役割

最終的に、マイノリティ言語はマジョリティによって抑圧・淘汰され、それは暗に、それら言語に紐づく文化や慣習、人口のゆるやかな“死”を意味する。そのような言語の“人気”に依存したパワーバランスの形成が、オンライン上での言語情報のデジタル化によって加速したことは想像に難くない。あなたが英語を何不自由なく操ることができれば、常にGoogle検索で膨大な情報にアクセスができる。一方で、オンライン上でのチェワ語リソースは対英語比で圧倒的に少なく5、たとえばチェワ語しか知らぬ者は、仮にスマートフォンが手元にあったとしてもそこから得られる「情報」は限定される。では、必要な情報が医療やビジネス、特定のスキルに関わるものだったら?言語によって形作られたインターネット上のパワーバランスが、そのまま話者の人生を左右しうるのだ。さらに、マラウイ国内だけでみても、裕福な家庭に生まれ質の高い英語教育を受けた人間と、地方農村部に生まれ現地語のみに囲まれて生活している人間では、その後の社会的・経済的な“豊かさ”に大きな隔たりが生まれうる。

library ▲ マラウイでは、たとえば僕の近所の公共施設(図書館)のサインや政府主導のデジタル化推進プロジェクトのチラシは英語表記に限られている。英語が不自由な国民は、どのように知識・スキルを得て、デジタル社会に参画すればよいのだろうか?

こんな話をすると、当然「機械翻訳をはじめとするAI技術がなんとかしてくれるでしょう」という意見が出てくる。しかし忘れないでほしい。これら技術の根底にあるのは膨大なデータであり、今問題としているのは、ある言語に紐づくデジタルデータの量的な偏り(不足)についてである。たしかに、日本語やフランス語、スペイン語、中国語のようなユーザの絶対数がそもそも多い言語であれば、英語との間の高精度な自動翻訳を実現するに足る学習データが得られるかもしれない。しかし、チェワ語のようなマイノリティ言語は、そもそもそのような学習データを獲得することすら困難である6。そのような背景から、言語モデル開発の現場においては、少数派言語、あるいは膨大なデータ量を扱うだけのリソースが確保できない小企業は、パワーバランスに飲まれ自然淘汰されてゆく・・・という話は『大規模言語モデルとそのアプリケーションに対する所感』で述べたとおりである。

試しに「英語と比較して、ChatGPTのチェワ語に対する理解はどの程度ですか」と、ChatGPT (GPT-3.5) に聞いてみよう。

残念ながら、私の訓練データにはチェワ語のサンプルが含まれていないため、チェワ語に関する理解は英語に比べて限定的です。私は大規模な英語コーパスから学習されましたが、他の言語に関する知識は限定的です。そのため、チェワ語の文法構造や表現については理解が不十分であり、翻訳や文脈に応じた適切な回答を提供することが難しい場合があります。可能な範囲でお手伝いしますが、完全な理解を期待することはできません。

データソースをオンラインに頼る限りにおいて、ChatGPTの学習データの多くは英語である。したがって、チェワ語のようなマイノリティ言語に対して、言語モデルは「翻訳や文脈に応じた適切な回答を提供することが難しい」場合がある。

データ時代におけるマイノリティ言語の未来

このように、チェワ語話者のもつ「ちから」は、現実世界のみならずデジタル世界でも限定されてしまっている。この偏りは、AI開発が進み英語話者が更なる利益を享受する過程で一層拡がっていくものと想像される。なお、チェワ語の他にもマラウイには10を超える現地語が存在するとされており7、それら言語の話者はさらに厳しい立場に置かれていることを付け加えておきたい。

もちろん、限定的とはいえチェワ語にまつわるデジタルデータもゼロではない。たとえば、チェワ語・英語の機械翻訳アプリも、存在するには存在する。そのおかげで僕も基本的な語彙を気軽に学ぶことができるわけだが、やはりその完成度はGoogle翻訳などに大きく劣り、少し複雑で長い文を投げれば容易にクラッシュしてしまう未熟さだ。これではチェワ語話者を増やそうにも力不足であり、片や日夜進化を遂げるGoogle翻訳でサポートされている言語に対するハードルは、今日となっては極めて低い。

話者の数がデータの量となり、データの量が質も底上げし、それがデジタル社会における富・力となる。だからこそ英語を操るアメリカのテック企業は強いわけで、昨今のAI開発競争を考えた時に、少なくとも言語の分野ではデータ量・質の点で、英語>中国語の力関係から未だアメリカは中国の先をゆく。

そんな時代に一個人として何ができるのか、仕事と旅を通してずっと考えている。ひとつ自明なのは、マイノリティ言語の存在に敏感になり、それに触れる機会を増やすことだ。マラウイであればチェワ語、あるいは僕が現在滞在している北部のトゥンブカ語。カナダであればフランス語や先住民の言語がイメージしやすい。というわけで、今年の目標のひとつはチェワ語で最低限の日常会話ができるようになることであり、(予定はないが)いずれカナダ市民権を取得するのであれば、言語要件は英語ではなくフランス語で満たしたいと思う。

learning-chichewa ▲ マラウイ到着直後のオリエンテーションで受けた『チェワ語入門2時間コース』の資料などを参照して、pang'ono pang'ono(少しずつ)勉強中。今は基本的な挨拶と簡単な自己表現、買い物くらいならできるかな・・・という程度で、「日常会話ができる」にはまだまだ程遠い。

組織・ビジネスのレベルで考えると、マイノリティ言語の存在を無視せず、その「生データ」を積極的に発信することでオンライン上でのデータ量を底上げしてはどうか。もちろんデータの質が高ければ高いほどよく、それはニュース記事や論文などの形で現れる。そこまでいかずとも、マラウイの企業や政府のプレスリリース、ブログやソーシャルメディア上でのコミュニケーションは複数言語で行う、モバイルアプリでは英語以外の選択肢も提供するなど、広くアクセシビリティの観点から可能な配慮は多数ある。

いずれにせよ、世の中のパワーバランスはすでに言語の存在に多分に依存しており、“弱者”と“強者”のコントラストはアフリカ南東の小国に来て一層はっきりと観測できるようになった。何らかの能動的な介入なしには、英語などメジャーな言語との差は拡がるばかりだろう。しかしいかなる理由であれ、この地で言語と共に作り上げられた文化や歴史、人間性を絶やしてはならないと、僕は強く思う。

1. 複数存在する現地語のうち、チェワ語を主とする話者の人口は70%を占めるとのデータもある。
2. The most spoken languages worldwide in 2023 に依る。
3. カナダ統計局のレポート・Indigenous languages across Canada"Indigenous peoples have consistently stressed the importance of language as the primary tool to share and communicate culture, world views and values to future generations" という一文で始まる。
4. "Towards the Re-establishment of the Demographic Weight of Francophones"カナダ政府の2023-2028年の公用語に関する計画の一翼を担う。
5. たとえば、僕のブラウザで今 "Zikomo"(チェワ語で「ありがとう」の意)とGoogle検索すると、およそ200万ページがヒットする。対して、英語 "Thank you" はおよそ37億ページであり、1000倍超のページがヒットする。
6. もちろん、転移学習などの文脈でテクニカルなアプローチが議論されていることも事実。
7. データソースによってその数は異なるが (e.g., The Culture of Malawi: Languages of Malawi, Language data for Malawi)、共通理解として「マラウイ人」は多様な部族による様々な言語の話者によって構成されることを忘れてはならない。それにもかかわらず、マラウイ移民局のWebページ "List of Languages in Malawi" では主要4言語しか列挙されておらず、ここにも言語の“人気度”によるパワーバランスが表れている。
  この記事に関連する話題: デジタル・マラウイ:人道的かつ倫理的、そして持続的なテクノロジーのあり方 "AI"を紐解く

  シェアする

このエントリーをはてなブックマークに追加

  カテゴリ

生活・人生

  あわせて読みたい

2024-06-24
“祭り”の終わりで─アフリカ・マラウイより、世界を倫理的にハックすることに関する一考察
2023-12-25
個とシステムのあいだで、情報とインターネットをめぐる哲学・地理探究
2017-06-18
DMM英会話を1ヶ月間やってみて思う、オンライン英会話は『やらないよりマシ』なのか問題 #DMM英会話

  もっと見る

最終更新日: 2024-03-22

  書いた人: たくち

Takuya Kitazawaたくち)です。長野県出身、カナダ・バンクーバー在住のソフトウェアエンジニア。これまでB2B/B2Cの各領域で、Web技術・データサイエンス・機械学習のプロダクト化および顧客への導入支援・コンサルティング、そして関連分野の啓蒙活動に携わってきました。現在は主に北米(カナダ)、アジア(日本)、アフリカ(マラウイ)の個人および企業を対象にフリーランスとして活動中。詳しい経歴はレジュメ を参照ください。いろいろなまちを走って、時に自然と戯れながら、その時間その場所の「日常」を生きています。ご意見・ご感想およびお仕事のご相談は [email protected] まで。

  近況   一杯のコーヒーを贈る

  免責事項

  • Amazonのアソシエイトとして、当サイトは amazon.co.jp 上の適格販売により収入を得ています。
  • 当サイトおよび関連するメディア上での発言はすべて私個人の見解であり、所属する(あるいは過去に所属した)組織のいかなる見解を代表するものでもありません。
  • 当サイトのコンテンツ・情報につきまして、可能な限り正確な情報を掲載するよう努めておりますが、個人ブログという性質上、誤情報や客観性を欠いた意見が入り込んでいることもございます。いかなる場合でも、当サイトおよびリンク先に掲載された内容によって生じた損害等の一切の責任を負いかねますのでご了承ください。
  • その他、記事の内容や掲載画像などに問題がございましたら、直接メールでご連絡ください。確認の後、対応させていただきます。