生成AIや大規模言語モデル(LLM)を、それぞれの「バイブス」(直感、フィーリング)によって評価できるとする、AIコミュニティでの新たなホットなトレンドを考察しよう。そう、つまり従来の確固たる定量的指標で最高のAI LLMを比較するのではなく、「自分たちのAIは本当に良いバイブスを持っている」と主張するのが最新の流行なのだ。この動きは拡大しているが、それが表面的であることや、「ジェダイの手品」さながらの目くらましに似た性質を正面から指摘すべきだと考えている。
以下、この点について掘り下げよう。
バイブスがAIの世界に参入
ジェネレーティブAIやLLMを評価する従来の方法は、いくつかの主要な指標を測定し、それぞれのAIがどれほど優れているかを比較するやり方である。たとえば、TTFT(Time To First Token、最初のトークンが返されるまでの時間)やTPS(Tokens Per Second、1秒あたりのトークン数)などを計算して性能を見極める。どの指標が最適かについては絶えず議論があるが、少なくとも定量的に測定する点では共通している。AI開発者が数値を操作しようとしても、第三者がAI製品にアクセスして実験すれば、いずれ不正は露見する。最終的には数字が物語るのだ。
ところが近頃、はるかに曖昧で内容の希薄な評価方法がAI関連の用語として広まっている。それが「バイブス」だ。あるAI開発者は、自社のLLMが優れたバイブスを示していると述べ、仮に従来のハードコアな指標が低水準でも「バイブスが良いから大丈夫だ」といった主張をする。
はっきり言えば、「バイブス」という測定方法は完全に主観に依存する。
これはAI開発者にとって非常に都合が良い。誰もそれを完全に否定しようがないからだ。もし「そのAIにはバイブスを感じない」と言われても、開発者は肩をすくめて「自分はそう感じるが、すべての人が同じ感覚を持つとは限らない」と答えればいい。その間も開発者は、AIが放つ素晴らしいバイブスを声高にアピールし続ける。
このトレンドがさらに広がると、AIの発展度合いを正しく測定できなくなるおそれがある。それは憂慮すべき事態だ。