たねやつの木

Photographs, Keyboards and Programming

Gemini-CLIくんに面倒なタスクを任せたら、1時間後には完璧なレポートが完成していた話

こんにちは、たねやつです。

最近、AIアシスタントの能力に心から驚かされる出来事がありました。 先日、AIアシスタントであるGemini(Gemini-CLI)に、7つの異なるローカルLLMの性能を比較評価するという、人間がやれば半日はかかりそうなタスクを依頼しました。

そして、1時間ほどして戻ってきた私が見たのは、完全に整理され結論まで出されたいい感じの評価レポートでした。

もちろん、キーボードやマウスを操作したのは私ではありません。Geminiが、指示されたタスクを静かに、しかし着実に完遂していたのです。

今日は、そんなAIの自律性と、その裏にあった「人間とAIの共同作業」について、詳しくお話ししようと思います。

発端:AIとの共同作業で作り上げた「設計図」

ことの始まりは、私の「Raspberry Piで動くローカルLLM、どれが一番性能がいいか知りたいな」という、漠然としたアイデアでした。

しかし、AIに「やっといて」と丸投げして「はい、終わり」というほど、話は単純ではありません。 実は、この複雑な評価作業を成功させるため、私はGeminiと対話を重ね、AI自身がタスクを理解し、自律的に動くための詳細な"設計図"とも言えるGEMINI.mdという指示ファイルを、事前に綿密に作り上げていたのです。

今回の成果は、私が一方的に命令した結果ではなく、私とAIの共同作業の結晶だったのです。

このGEMINI.mdには、単なるお願い事だけでなく、以下のような具体的な評価のルールを定義しました。

  1. 評価対象: qwen3:0.6b, qwen3:1.7b, qwen3:4b, gemma3:1b, gemma3:4b, deepseek-r1:1.5bなど、7つの異なるLLM。
  2. 評価方法: すべてのモデルに、同じ日本語のプロンプト(指示文)を与える。
  3. 評価軸:
    • 速度: プロンプトの実行にかかった時間をミリ秒単位で計測。
    • 品質: 生成された文章の創造性、正確性、有用性を定性的に評価。
  4. 最終成果物: 全モデルの結果を比較できる、マークダウン形式のサマリーレポートを作成。

この設計図を手に、私はターミナルに実行を指示すると、最近ハマっているストリートファイターでもやろうかと画面を切り替えました。この時点では、AIがこれほどスムーズにタスクを完了するとは想像していませんでした🙄

静寂の1時間:設計図に基づき、自律的に動くAI

私がストリートファイターのコンボ練習に夢中になっていると、気づけば1時間ほどが経過していました。 一区切りつけて画面をGeminiに切り替えてみると、そこには見慣れないファイル群が生成されたターミナルの画面が。

qwen3_4b_evaluation.md gemma3_1b_evaluation.md final_summary.md ...

これには本当に驚きました。 各モデルの評価結果が個別のファイルとして記録され、さらに最終的なまとめレポートまで作成されていたのです。

final_summary.mdを開いて、その完成度の高さに感心しました。

モデル名 平均レスポンス時間(秒) 平均トークン/秒 (t/s)
qwen3:0.6b 0.80 13.81
qwen3:1.7b 3.19 4.29
qwen3:4b 9.81 1.69
gemma3:1b 1.46 8.87
gemma3:4b 6.89 2.24
deepseek-r1:1.5b 2.16 -

そこには、私たちが設計図で定義した通りの比較表が、完璧なマークダウンで記述されていました。各モデルのレスポンスタイムやトークン生成速度だけでなく、「品質重視ならこのモデル」「速度重視ならこれ」といった具体的な結論まで添えられて。勿論パラメーター数の少ないモデルでの比較なので優秀なモデルの比較のように面白みのあるものではないですが、そんなことより着々と勝手に作業してくれていたことに驚いたのです。

実際のその比較を記事として投稿したものがこっちになります。

AIはタスクを”処理”していた。効率的に、そして正確に。

ログを追ってみると、Geminiの効率的な仕事ぶりがよく分かりました。

  1. 計画立案: 事前に私と練り上げた設計図GEMINI.mdに基づき、具体的な実行計画(どのコマンドを、どの順で実行するか)を自ら策定。
  2. 逐次実行: 7つのモデルそれぞれに対して、Ollamaを呼び出し、プロンプトを実行。timeコマンドで時間を計測。
  3. 結果の記録: モデルごとにマークダウンファイルを作成し、実行結果と計測タイムを書き込む。
  4. 統合と分析: すべての個別レポートを読み込み、内容を分析・比較。
  5. 最終報告: final_summary.mdに、完璧な比較表と結論を生成。

この一連の流れを、一度もエラーで止まることなく、1時間弱でやり遂げていたのです。私がストリートファイターに熱中している間も、AIは設計図に従って黙々と、しかし着実なスピードでタスクを処理していました。この事実に、AIの持つポテンシャルの高さを改めて感じました。

最後に:AIは頼れる「思考のパートナー」へ

今回の体験は、私にAIとの新しい付き合い方を教えてくれました。

AIはもはや、単なる「命令を待つ道具」ではありません。今回のGEMINI.mdの作成がそうであったように、複雑なタスクの"設計"段階から人間と協業し、そして目的を与えられれば、自ら計画し、問題を解決し、成果を出す「自律したエージェント」へと進化しつつあります。

それは、まるで優秀な”思考のパートナー”が隣にいるかのようです。

ただし、忘れてはならないのは、**最終的な成果物の責任は常に人間にある**ということです。AIが生成した完璧に見えるレポートも、鵜呑みにするのは危険です。必ず自分の目で内容を精査し、事実確認を行い、そして自分自身の経験や意見という「魂」を吹き込む作業が必要です。AIは最高の副操縦士(コパイロット)かもしれませんが、機長はあくまで人間。その舵取りを放棄してはいけません。

この驚異的なパートナーと共に、明日はどんな作業をしようかなぁとワクワクしながらお風呂に入っています。

あなたも、お使いのAIアシスタントに、少しだけ複雑なタスクを任せてみてはいかがでしょうか。 きっと、あなたの想像を超える成果を見せてくれるはずです。