インターネットは英語中心であるといわれる。 実際ウェブページのほとんどが英語であると考えられてきた。 しかし、最新の調査結果によれば、状況は変わりつつあるようである。
インターネット上の言語の多様化
インターネット人口の中で英語を母国語とする人の比率は、 Global Reach 社の推計 によれば 2002年で 36.5% となっている。 同社の2001年の推計では40.2 %、 2000年の推計では 49.6% となっており、 インターネット人口の中で英語を母国語とする人の比率は次第に下がってきている。 英語が母国語でなくても英語に不自由しない人も多いのだが、 英語以外の言語に対するニーズも確実に高まってきているということがいえるだろう。
検索エンジンalltheweb ではウェブページを49言語に分類して、 各言語に対する検索機能を提供しているが、 集計によれば 英語のページは約半分強ということになっている。 検索ロボットは、 収集したページを解析 してどの言語で書かれているかを特定するのだが、一般にはそれは簡単ではない。 文字コードについては、次第に ユニコード が普及しつつあるものの、 ローカルな言語コードを用いているところも依然として多く、特定が困難である。 例えば、インドでは、ヒンディー語をはじめとした多くの公用語、文字があるが、 コード化の状況は混沌としており、 新聞社ごとに1つの言語コードがあるともいわれている。 欧米系の言語はほとんど確実に特定できるのに対し、2バイト系文字や 分かち書きをしない言語では精度が落ちることを考慮すれば、 英語のページの比率はさらに低いことになる。 実際には50%を切っているではないだろうか。
多言語化としての国際化
インターネットが欧米中心から、 中国、東南アジア、南米、アフリカ等へ拡大するにつれ、 このような多言語化はますます進んでいくと思われる。 IDC の予測 によれば、2003年には、 電子商取引の半分以上がアメリカ以外で発生すると考えられている。 今までの “ワールドワイド” の意味するところが欧米文化の共有であったとすれば、 今後は本来の意味での“ワールドワイド”化が進んでいくといっても良いだろう。 インターネット時代を迎え、英語教育に力を入れる国が多いが、 逆にインターネット上での多言語化もまた急速に進んでいるのである。 国際社会における英語の重要性は否定できるものではないが、 インターネット時代の国際化とは、必ずしも英語化ではない。 多言語化の流れなのである。
このような流れにおいて、 個人あるいは企業がその波に乗り遅れないようにするためには、 自然な発想として自動翻訳というニーズが当然ありうる。 いかにインターネット上の言語が多様化しても、 それに対応しうる翻訳機能があれば不自由はない。 しかし実際には、様々な言語の間で個別に翻訳機能を開発することは 技術的にも容易なことではない。 加えて、英語以外の翻訳システムはそもそも市場性もなく、 開発サイドから見れば投資に見合わないといった問題がある。 また、言語間で個別に翻訳機能を進めるのではなく、ある中間言語(多くの場合英語) を用いたアプローチもあるが、現状の技術では精度的に大きな問題がある。 例えば、オンライン上の辞書 を使って、ドイツ語から英語へ、 それをまた日本語へといった2段階翻訳を行なってみると、 ほとんど意味不明な文章となってしまう。
多言語環境に向けた課題
インターネットにおける言語環境が英語中心から多言語へ移行しつつあるということは、国際化という観点から見れば望ましいことなのだが、 一方で言語の壁により混沌の度合いを一層深めているともいえる。
まず第一に取り組むべき課題は文字の入出力環境の整備であろう。 文字のコード化や表示(フォント)が標準化されていなければ、 それを書いたり見たりする環境を共有することすらできない。 前述のインドのように、多数のローカルなコード化が混在していたり、 国際基準自体が整備途上であったり、 実態と合わないとして問題になっているところもある。 アラビア文字では、十数個のコード体系が存在しているという。 ユニコードのような標準コード体系の整備は必須だが、よくいわれるように 当該国の積極的関与もまた重要である。
また、第二には、言語間の翻訳をサポートするツールあるいは辞書の整備が必要である。 ただし、あらゆる言語間をサポートする自動翻訳機械の実現は、 自然言語技術者の大きな夢ではあるものの、技術的な道程は遠い。 欧米系言語を中心として発展してきた言語処理技術自体に問題を提起する向きもある。 欧米言語間での相互翻訳システムは多数あるものの、 アジア言語間での相互翻訳システムはほとんどない状況である。 一方、現実的なところでいえば、例えば、 東南アジアにおける言語は多くの場合類似性を持っており、 単語をそのまま訳するだけでもある程度の翻訳精度が得られるともいわれている。 Babylon は50以上の言語辞書をサポートするオンライン辞書を提供しているが、 基本的な文法知識に加え、こうした辞書を用いることで、 マイナーな言語であってもある程度時間さえかければ読んでいくことも可能になる。
最後に最も重要なことは、単に言語的側面にのみ注目するのではなく、 その背後にある文化や慣習に対して互いに理解するような意識を持つことであろう。 ヨーロッパでは、歴史的経緯もあって、 多言語・多文化に関する意識が高いといわれる。 対してアジアでは、 その近隣諸国と言語的あるいは文化的な類似性が高いにも関わらず、 意識が希薄であるように思われる。 韓国の 中央日報や 朝鮮日報、また、 中国の 人民日報 では、自国語のほか、英語、日本語でのニュースを毎日配信しているが、 日本の主要なメディアサイトでは、 英語以外でのニュース配信を行なっていない。 企業のサイトでも、英語版は用意するものの、 韓国語、中国語を含めたマルチリンガルなサイトはほとんどない状況だ。 ビジネス公用語としての英語の地位は確かに確立されてはいるが、 非英語圏において英語を自由に操れる人はごく少数に限られる。 直接互いの言語や文字でやりとりすることにより、 全体的なコミュニケーションの裾野を広げることができるのではないだろうか。
本文中のリンク・関連リンク:
- global reach 社 「Global Internet Statistics(by Language) 」
- 多言語対応検索エンジンalltheweb
- ユニコード
- 多言語対応検索エンジンにおける言語判定方法について 「Natural languages and the World Wide Web」
- alltheweb 上の各言語のページ数
- IDC による 「web globalization report」
- amazon.com、 Yahoo! などの大手商用サイトでは多言語化を推進している。
- オンライン翻訳サイトのリンク集 DICT FORMZ
- オンライン辞書 Babylon では50以上の言語辞書をサポート。
- UNESCO は 世界母国語デー を制定し、世界中のマイナーな言語を保護し、デジタルデバイドの観点から援助することを謳っている。