G- なんでも評点:なぜ自動翻訳は使い物にならないのか? ― 翻訳を生業とする立場と経験から分析してみる

2008年09月25日

なぜ自動翻訳は使い物にならないのか? ― 翻訳を生業とする立場と経験から分析してみる


筆者は1980年代の終わり頃から産業翻訳という仕事に携わっている。最初は、ある翻訳会社(以後“T社”)に完全出来高制で採用されたのだが、1年半ほどで独立した。私が独立した後、T社が新会社設立のプランを立てて銀行に融資を願い出たところ、あっさりOKが出たらしい(まだバブル崩壊まで1年以上残していた時期の話だ)。“自動翻訳機”を数台導入し、翻訳物を量産して大儲けするというプランだった。
沖電気、三菱電機、東芝、シャープ、日本電気、日立製作所、リコーなど、日本の電機メーカー各社は、1980年代から自動翻訳機(機械翻訳システム)の開発と商品化に力を入れていた。自動翻訳の機能しか持たない専用機1台に数百万の価格が付けられていた。T社の新会社が導入したのはシャープのDuetか、三洋電機のSYSTRANのどちらかだったと思う。

しかし、大儲けなど出来やしなかった。その当時の翻訳原稿は、まだ紙ベースが大半。スキャナは存在していたが、OCR(文字認識)技術がまだ発達しておらず、結局は手入力に頼らざるを得なかった。ここに第一のボトルネックがあった。

そして、最大のボトルネックは、機械翻訳の出力の品質があまりに低く、そのままクライアントに納入できないという点だった。そのため、出力をチェックして修正する“ポストエディタ”なるスタッフが必要となるのだが、翻訳ソースを読んで正しく意味を理解できる人でないと勤まらない仕事だった。

要するに、翻訳者の卵程度の技量はないと勤まらない。翻訳者の卵は翻訳者になることを目指しているので、煩雑な“ポストエディタ”の仕事に魅力を感じない。だから使える人材がなかなか集まらない。

バブル崩壊が追い打ちをかけて、その新会社は倒産。親会社のT社も、まもなく多額の負債を抱えて倒産に至った。

自動翻訳が普及したことで質の悪さも周知されるように

さて、今日では大仕掛けな“翻訳専用機”に頼らなくても、誰でも簡単に無料で自動翻訳を利用できる。たとえば、googleの検索結果ページでは海外のWeb ページを自動翻訳して閲覧することが可能になっている。現在はまだBETA版ということなので、今後は改良が続けられていくことになるようなのだが、現時点では次のような奇っ怪な訳文が生成される。

擬態のMyna才能

九官鳥の中国に2つの騒々しいオウムを閉めることに成功-猫のようなm iaowを学んでいる。

鳥のオーナー江氏は、南京、 mynaを買ったと話すように教えたのためのビジネスを誘致する。

すべてうまくいった-オウムを買ったとまでは、 2つのケージは、 m ynaの横に入れ、 Y angtseイブニングポストを報告します。

江主席は、 2つのオウムは非常にはチャタリングのmyna動揺と怒らせておしゃべりしている。

これは熱狂的にケージ内の2つのオウム到着後にジャンプを開始した。その後、 mynaの近くに猫がやってきて、 miaowed 、突然オウムはすごく"と同氏は説明した静かなことに気づいた。

その後のことを学んだしていた私に聞いて驚いた九官鳥、猫miaowingをまねると、そのまま何度も一日。それは、彼のすべての私は彼に教えた中国語を忘れているようだ!

あまりにもうるさいれるたびに、オウム、 myna猫を真似て、はったりと、オウムをすぐに口止めを呼び出します。


これは、先日の記事「九官鳥対オウムの争いは、猫の鳴き声を真似た九官鳥の逆転勝利」でソースとして参照したAnanovaの記事をgoogleの自動翻訳にかけたものである。全体を通して意味不明なことはもちろん、九官鳥を意味する英単語であるmynaが訳されていないことや、飼い主の名前が勝手に“江主席”と訳されているなど、突っ込みどころ満載である。

Ananovaの記事は比較的プレーンな英語で書かれているのだが、それでも上のような有様。有料の翻訳ソフトなら、もう少しましな出力が得られるかもしれないが、編集なしで日本語として通用させるのに無理があるのは、どのソフトも同じだろう。

自動翻訳を手軽に利用できるようになるまでは、世間の人たちがその精度の低さを認識していなかったように思う。というのも、以前は、私が世間の人に「翻訳を生業としている」と言うと、「でも、これからは自動翻訳が発達するので将来仕事が減ったりしませんか」みたいな反応を示されることがよくあった。最近は、そんな反応を示されることがめっきり少なくなったのだ。

路上を自動的に走る自動車はまだ実現されていない

自動車はその名に反して、自動的に走る車ではない。人間が運転席に座り、自分の判断でハンドルを切ったり、アクセルを踏んだり、ブレーキをかけたり、変速したりするものとして最初から設計されていた。

ところが、機械翻訳システムは、最初から人間の判断を介入させることなく全自動で翻訳出力を生み出すシステムを目指して設計されてきた。自動車の設計思想にならい半自動の翻訳機能を人間が操作しながら翻訳出力を生み出すシステムを目指していれば、もっと使えるものが出来ていた可能性もある。

最初から“全自動”という、あまりにも重くて実現困難な使命を負わされていたことに加え、どの分野の原典にも対応できる“汎用性”を売りにしようとしたところにも無理があった。分野の違いへの対応は、用語辞書だけで済まそうとしていた。

さらに、機械翻訳システムでは、原典が“正しい言語”で書かれていることが大前提となる。原典に誤りがあったり、新しい用語や新しい表現が含まれていると、もう正しく対応できなくなる。

翻訳現場の人間から言わせてもらえば、完璧な原典に出会えることはめったにない。最近では、米国で書かれたものであっても、非ネイティブの書き手による英語に遭遇することが非常に多くなっている。原文の誤りや不足箇所を補いながらでないと翻訳できないことがしばしばである。

今日の翻訳ソフトやオンライン翻訳も、上記の問題点にいまだに呪縛されている。

なお、こういった問題が特に顕著になるのは、英語などの印欧語と日本語の間の翻訳の場合である。印欧語どうし(特に英語とドイツ語など)の自動翻訳は、たとえ無料のオンライン翻訳であっても、かなり精度が高くなっている。当ブログで珍ネタを取り上げるときにも、ときどきドイツ語やオランダ語などの情報ソースを英語に訳して参照することがあるが、参照用としては十分使えるレベルにある(もっとも、不特定多数が参照する文書としてそのまま使用できるレベルにないことも確かだ)。

また、韓国語のニュース記事などをオンライン翻訳で日本語化した場合も、かなり精度の高い出力が得られる。実際、当ブログは韓国からの閲覧者も多いのだが、その多くはオンライン翻訳で当ブログの記事を韓国語化して読んでいるらしいことが、アクセス解析の結果からわかっている。

グローバル翻訳業界では機械翻訳よりも翻訳データベースが主流

印欧語どうしの翻訳は人間が行う場合も、印欧語・日本語間の翻訳よりはるかに生産性が高い。だから、後編集の必要となる機械翻訳にかけるよりも人間に翻訳させた方が、結局、コストが低くなる。

1990年代半ばから世界の産業翻訳業界を席巻しているのは、機械翻訳ではなく“トランスレーション・メモリ”と呼ばれる翻訳データベースに既存の翻訳を文章単位で(原文と訳文のペアとして)蓄積していくタイプのCAT(Computer Aided Translation)ツールである。

特に有名なのはTradosと呼ばれるツールである。CATツールが出回りだした当初は、その使用が義務づけられていないことが多かったので、個人的に翻訳データベースを構築して美味しい思いをしたこともある。

しかし、最近では、マニュアルなどの英日翻訳の発注元企業(大半は米国企業の日本法人)がその使用を要求するのがごく普通のことになっている。最近では、非外資系の日本企業も翻訳の発注(この場合は日英翻訳も含まれる)に際してCATツールの使用を必須条件にすることが増えてきた。

過去の翻訳に同じ文があったり、似ている文があると、翻訳データベースから自動的に呼び出される。その一致率に応じて、翻訳料金がディスカウントされる。これにより、ソース・クライアントはコスト減を実現できる、という寸法である。

まあしかし、翻訳データベースにも、いろいろと欠点がある。たとえば、ほとんど同じ文であっても、分野、文脈、あるいは文書内での出現箇所によっては、訳語や表現を変える必要がある。しかし、そういった違いを自動的にカバーしてくれるようなシステムにはなっていない。

原文が100パーセント一致していれば、その箇所はディスカウントされるわけで、基本的に手を入れない。手を入れる約束になると、クライアントは思ったほどのコスト節減効果を得られないことになる。

このことから、もう1つ大きな問題が生じている。過去に蓄積された訳文の品質という問題である。既存の訳文の品質が悪いと、それがそのまま新しい文書にも引き継がれてしまう。

筆者の構想:完全にプログラミング可能な翻訳システム

機械翻訳があらゆる分野でまったく役に立っていないかというと、決してそうではない。ボキャブラリが限られており、表現が定型化されている分野では威力を発揮する。具体的には株式市況や天気予報などである。

上にも書いたが、従来の機械翻訳システムの設計上の大きな誤りは、あらゆる分野に対応可能な“汎用型”システムを目指した点にあると思う。特定分野だけに特化したシステムにすれば、今の数倍は精度が上がるだろう。

という観点に基づき、筆者はずいぶん前から「完全にプログラミング可能な翻訳システム」を作ればよいのではないかという構想を持っている。漠然とした構想なので、業界の人に話しても、あまり関心を持ってもらえたためしがない。

従来の機械翻訳システムや現在の翻訳ソフトは、入力と出力だけしか外から見えない一種のブラックボックスのようなものである。内部の仕組みを知っている必要がないがゆえ、すぐに使い始めることができるが、その反面、翻訳精度が悪くても辞書以外の方法ではチューニングができない。

筆者が考えているのは、その動作をすべて“プログラミング言語”で制御できる翻訳システムである。ロボットのプログラミングにたとえた方がわかりやすいかもしれない。特定の分野や用途に応じて“翻訳ロボット”の動作を細かく制御できるのだ。

このシステムは、翻訳データベースも活用することになる。特定の条件を満たしている場合は、過去の訳文を取り出してきて自動的に修正を加える。

「そんなシステムが出来たら、あんたが真っ先に職を失うのではないか?」と心配してくれる人がいるかもしれないが、そんな心配は無用と感じる。こういうシステムの開発に関与し、そのシステムが成功すれば、発案者の私にも多少実入りはあるだろうし、そもそも翻訳プログラミングが次の仕事になる。こつこつ作業した結果が翻訳データベースに吸い取られてディスカウントを食らっている現状よりは、よほどましである。


この記事の先頭に戻る

Google
WWW を検索 評点




トラックバックURL

この記事へのトラックバック

1. 翻訳という未開拓分野  [ □■ 神戸本山便り ■□ ]   2008年10月06日 16:35
●なぜ自動翻訳は使い物にならないのか? ?? 翻訳を生業とする立場と経験から分析してみる なかなか興味深い内容ですね。 ウチも海外版のおちゃのこネットを始めるにあたって、英語の出来るスタッフの採用と、コンテンツの英訳という問題を抱えて右往左往しました。 こ...

この記事へのコメント

1. Posted by かい   2008年09月25日 06:29
googleの翻訳は無料の翻訳サービスの中でもトップクラスにダメですね。
2. Posted by ma9   2008年09月25日 09:42
日<->韓機械翻訳の精度が高いこと、確かにそうですね。
Enjoy Koreaという(韓国側ではEnjoy Japanというタイトル)、機械翻訳によって日韓それぞれの国の言語で書かれた掲示板への書き込みを相手側の言語に機械翻訳するサービスが運用されているのですが、罵倒語などでない限り非常に高精度の翻訳がなされます。これが日<->中となると、もう全然ダメなんですよね…。
3. Posted by オノ   2008年09月25日 09:52
自動翻訳、何年たってもあまり進歩がないような気がします。ただ、わからない単語で辞書を参照する時間を短縮してくれる効果はありますよね。
翻訳エンジンの中でもGoogleが一番ひどいのは有名なようですね。個人的にはYahooの翻訳が一番まともなように感じます。ANANOVAだとそこそこ意味が通りますよ!

4. Posted by clydemender   2008年09月25日 14:00
日本語と韓国語みたいにほとんどグラマーが同じなら直訳でも十分ですよね。長い文章の主部と述部を認識する、といった事はプログラムできるんですかね。
5. Posted by けん   2008年09月25日 15:01
5 >>半自動の翻訳機能を人間が操作しながら翻訳出力を生み出すシステムを目指していれば、

これは本当にそう思いますね。翻訳候補を羅列して 人間に選択させるようにすれば、作業効率も上がるかも...
6. Posted by ヴァル   2008年09月25日 20:11
文法の構成が同じ言語同士だと自動翻訳が上手く行くのでしょうかね
そーなると、日本だけおいてかれそう‥‥
7. Posted by tatu99   2008年09月26日 08:16
はじめまして、
自動翻訳と聞いても駄目だろうなとの思い込みがあります。
技術書・技術情報などの翻訳などでは外国語学科の学生ではとても手に負える代物ではなくチンプンカンプン。
また文学作品は自動翻訳不可能、翻訳可能なら文学者不要。
プロの翻訳家が仕事をしても出来栄え読みやすさには差異がある。
微妙なニュアンス言い回しをデータ化するなどしたら最小限必要なデータの数十倍のデータ入力が必要だろうし、実際上大部分のデータは一度も使用されなかったりして。
初級日常会話なら自動翻訳でもいいでしょうけど有用性はチョット。
8. Posted by (^ ^;)   2008年09月26日 10:04
google翻訳は利用者がチューニングしています
いたずらで酷いことになっていますが
それを食い止めるシステムがないわけで
精度云々以前に管理されていないウィキペディアと同じでしょう
一緒くたにされても困ると思いますよ
9. Posted by わ   2008年09月26日 10:12
漢字の予測変換みたいに簡単で、精度の高い翻訳機ができたらいいな。
作るのは大変だけど。
11. Posted by モンブラン ボールペン 人気   2014年04月06日 08:19
8割の<a href="http://www.kita-koumuten.co.jp/office/data/kita-montblanc-dt7ybhco3s.html">モンブラン ボールペン</a>が「自分に合った企業を見つけられるか」等の不安を感じながら活動人材採用コンサルティング会社、株式会社ジョブウェブ(本社:東京都港区 代表取締役社長:佐藤孝治 以下、当社)は、2012年12月6日〜12月16日に、2014年度卒のジョブウェブ会員の<a href="http://www.egawa.co.jp/data/egawa-montblanc-ty7nsk5dc.html">モンブラン 替え芯</a>を対象に就職活動に関する調査を行い、「就職活動に対する自信」「就職活動に関して不安に思っていること」について尋ねました。
モンブラン ボールペン 人気 http://www.shintomi.ne.jp/semi/img/montblanc/shintomi-montblanc-6ojmsez1td.html
12. Posted by mbt footwear   2014年05月04日 16:29
mbt shoes size chart なんでも評点:なぜ自動翻訳は使い物にならないのか? ― 翻訳を生業とする立場と経験から分析してみる
13. Posted by ナイキ ランニングシューズ   2014年05月08日 05:16
I know this if off topic but I'm looking into starting my own blog and was curious what all is required to get set up? I'm assuming having a blog like yours would cost a pretty penny? I'm not very internet savvy so I'm not 100% sure. Any recommendations or advice would be greatly appreciated. Appreciate it|
[url=http://www.cnypoolplayers.com]ナイキ ランニングシューズ[/url]
14. Posted by ナイキスニーカー人気   2014年05月08日 05:16
Wonderful blog! I found it while searching on Yahoo News. Do you have any tips on how to get listed in Yahoo News? I've been trying for a while but I never seem to get there! Appreciate it|
[url=http://www.cnypoolplayers.com]ナイキスニーカー人気[/url]

この記事にコメントする

名前:
URL:
  情報を記憶: 評価: 顔