川流不息

絶賛テレワーク中!の日々のメモ

翻訳サイトの利用

無料で使える翻訳サイトを時々利用していて気がついたのは、翻訳したい文章の質により翻訳結果の質も左右されるということです。つまり、入力するものの質により出力の質が左右されます。

当たり前みたいですが、こういうことです。

Google翻訳を日→英で使っていて、翻訳した結果(英語)のニュアンスが言いたいこととは少し違う、どうしてかな?と日本語での表現をいろいろ変えてみたところ、何回目かで言いたいことに近い翻訳結果に落ち着きました。日本語での表現を変えるにあたり、本当に私が言いたいのはこういうことだと何度か書き換えているうちに、あれ?日本語がイケてないから翻訳結果もイケてないのかもしれないと思ったのです。

主語、述語、動詞、形容詞、副詞。日本語なんて、もうずっと使っているから書き方なんて深く考えたことも無いし、今更書き方を学ぶ気にもならないし。でもこれ、最近気になっている自分の言語化能力が無いからなんとかしたいということと同じなんですよね。

翻訳だけでなく、最近流行りの『AIで何とかします』システム、これらの多くは教師データで学習したり、最初に判断をある程度教えておき、その後に入力されるものに対する出力へのフィードバックで出力の質を上げているようです。だから、入力する内容があいまいだとシステムが本来の意味とは違うように判断した結果が出力されがちになるのでしょう。

最近はデータサイエンティストという大量?のデータを色々いじくって推測をするのが大流行のようですが、入力するデータの前処理が大変との話を聞いたことがあります。上に書いた入力する文章が良くないと出力結果もよくないこととも関係がありそうです。

今日の一言

データサイエンス?