Tokyo Techies | AI vs. 人間: 文章を見分けるポイントと最新技術

chat
‍
‍

AIにTokyo Techiesについて質問する！

人間かボットか？『AI生成テキストの分類』という難題

IT技術

文責:

Khanh Phan

人間が書いた？それともAIが書いた？最近よく聞く文章の謎を解き明かす！

今読んでいる記事が、人が書いたものか、それともロボットみたいなAIが書いたものか、ふと考えたことはありますか？

最近はAIがどんどん自然な文章を生成するようになり、まるで人間が書いたかのような文章を作るので、これはどっち？とほとんど見分けがつかなくなってきたのではないでしょうか。

本記事では当社AIエンジニアが、文章が人間によって作られたのか、それともAIによって作られたのかを見分ける、ちょっと不思議な世界を解説します。

はじめに：AIが書いた文章か、人が書いた文章か。なぜそれが大事か？

最初に「なんでそんなこと気にする必要があるの？」って思うかもしれませんね。でも、お分かりの通りこれはかなり重要度が増しているポイントなのです。

ニュースでは： 読んでいるニュースが本当にあったことなのか、それともAIが作ったウソの話なのかを知る必要があります。
作ったのは誰か？：AIが本や映画を作るのを手伝ったとき、アイデアは誰のものになるのでしょう？
学校では： 教員は生徒が自分で宿題をしているのか、それともAIにやらせているのかを確認したいでしょう。自分でやらないと意味がないですからね。
危ない目に合わないために：私たちをだまそうとする、AIが作った怪しいメールを見分ける必要があります。
AIをもっと良くするために：人間とAIがどう違う書き方をするのかを知ることも、AIをより良く開発する際に非常に重要なヒントになります。

‍

数年前までは、AIが書いた文章を見分けるのは簡単でした。違和感のある言い回しだったり、同じ表現を何度も繰り返したり、人間らしさがなかったりしたからです。

しかし、今や時代は変わりました。GoogleのGeminiやChatGPTといったAIツールは、まるで本物の人間が書いたような文章を作ります。

どうやって見分ければいいのか、ということが議論されるレベルに到達したのです。

‍

AI生成データを見分けるポイント！

当社のAIエンジニアがテキスト分類研究をした際の、分類ポイントをいくつか見てみましょう！

人間が書いた文章:
- 書き手の気持ちが入る: 人間は自分の気持ちや視点を文章に入れがち
- 時々間違いがある: タイプミスや、少し意味が通じない文章があったりします。それも人間らしいところ？
- 書き方のトーンが人それぞれ違う:誰もが少しづつ違う書き方をします。演出のため、あるいは文章を掲載する媒体にふさわしいトーンにするため、また個性を出すためなど、様々な理由でそうなる
- ある種の脈絡のなさ: 話が急に変わったり、関係ない話が出てきたりすることもある

‍

AIが作った文章:
- 時に異常なまでに整っている: AIが書いた文章は、たいてい非常に整理されていて、正しそう
- 同じことを繰り返す傾向: 同じ言葉や言い方、同じアイデアを何度も言うことがある
- 感情がない: AIが書いた文章は（プロンプトで特に指示しない限り）強い感情がない

‍

AIが生成したテキストの検知方法

見分けるには、上記のような「パターン」を見つけることが基本的に重要になります。大きな間違いだけでなく、ちょっとした手がかりも見逃さないようにしています。

AIが書いた文章を見つけようとするAIツールには、GPTZero、Originality.AI、Undetectable などがあります。これらのツールはパターンを探して、点数をつけます。しかしまだ完璧ではありません。
人間が書いた文章をAIだと言ったり、その逆もあったりします。
OpenAIのような大きな会社もツールを作ろうとしましたが、案外難しく諦めたところもあるくらいだそうです。

今回はAIが書いた文章を見つけるために、私たちAI研究開発チームが行っていることを一部ご紹介します。

書き方分析: 文章がどうやって作られているかを詳しく見ます。
- 言葉の選び方: いろんな言葉を使っているか、同じ言葉ばかり使っているか。人間はいろんな言葉を使います。
- 文章の作り: 長い文章と短い文章が混ざっているか、同じ長さの文章ばかりか。人間はいろんな長さの文章を書きます。
- 小さな言葉や句読点: 「the」や「a」みたいな言葉がどれくらい使われているか、コンマやピリオドがどこにあるかなど、細かいところもヒントになります。
- 完璧すぎる？: AIはとてもスムーズで、人間のようなちょっとした間違いがありません。「Perplexity」というものでこれを測ります。点数が低いと予測しやすい（AIっぽい）、高いと驚きがある（人間っぽい）となります。
AI vs. AI (機械学習): AIを使ってAIを見つけます！
- コンピューターに教える: たくさんの文章をコンピュータープログラムに入力します。人間が書いたものと、AIが書いたものを混ぜて教えます。
- 違いを学ぶ: プログラムは、人間とAIの文章を見分けるパターンや特徴を学びます。
- 判断する: 新しい文章を見ると、学んだことを使って人間が書いたかAIが書いたかを推測します。
- 一番よく使われる方法: 今はこれが一番よく使われる方法です。
見えないマーク（たぶん）: Google SynthID Textみたいな、ちょっと未来的なアイデアです。
- 隠されたサイン: AIが作った文章に、秘密の「ウォーターマーク」を入れる研究者がいます。
- 秘密のコードみたい: このウォーターマークは、AIが作ったことを示すコードになります。
- 難しい問題: このウォーターマークは消されたりコピーされたりする可能性があるので、完璧な解決策ではありません。