
AI駆動開発ツール6種を実際に使ってみた ~未経験チームが試してわかったリアルな評価~
💡読了目安時間:約10分
AI駆動開発未経験チームが、AIを使って予算実績管理システムの開発に挑戦!
まずは、プロジェクトの要となる「AI駆動開発ツール」を比較してみました。
…とはいえ、私たちは熟練した開発者ではありません。
本記事は、AI駆動開発が初めてのチームが実際に人気ツールを使って比較検証した記録で、
どのツールが自分たちに合うのか?を悩んでいる方に向けたリアルな体験レポートです。
まずは「ツール紹介編」、はじまります!
目次[非表示]
- 1.はじめに
- 1.1.AI駆動開発とは?
- 1.2.なぜ今「AI駆動開発ツール」が注目されているのか
- 1.3.チームの開発背景と選定理由
- 2.AI駆動開発ツール、何を基準に選ぶ?
- 2.1.なぜ「比較」という方法をとったのか
- 2.2.比較する6つのツールをざっくり紹介
- 2.3.どんな観点で評価したのか
- 2.4.どうやって比較したのか(評価方法と前提条件)
- 3.使ってわかった、それぞれのAI駆動開発ツールの“個性”
- 3.1.Cursor |「頼れる説明上手」
- 3.2.Windsurf |「黙々と動く自動実行タイプ」
- 3.3.GitHub Copilot |「いつものIDEに溶け込む相棒」
- 3.4.Trae |「無料で最新機能を体験!けど、ちょっと不安定」
- 3.5.Cline |「高性能だけど、ちょっとクセあり」
- 3.6.AIDE | 「・・・」
- 4.さいごに
はじめに
AI駆動開発とは?
AI駆動開発とは、ソフトウェア開発のあらゆるプロセスに人工知能(AI)を取り入れて、もっと効率よく・もっと高度に開発を進めていこうというアプローチです。
従来の人手による作業に加えて、コードの提案・生成、バグの検出、テストの自動化、要件分析、ドキュメント作成などをAIに手伝ってもらうことで、開発のスピードと質、どちらも向上させることができると言われています。
特に近年は、ChatGPTのような大規模言語モデル(LLM)の登場により、「人間の言葉」でAIと会話しながら開発ができるようになってきています。
なぜ今「AI駆動開発ツール」が注目されているのか
AI駆動開発を支える「AI駆動開発ツール」は、2022年6月の GitHub Copilotの登場を皮切りに続々と登場しています。
さらに、2022年11月に登場したChatGPTに代表される生成AIの発展によって、「AI駆動開発ツール」の性能もどんどん向上してきました。
今では、以下のようなことも実現できるようになっています。
開発の人手を減らせる!
経験豊富なエンジニアがなかなか見つからない中で、AIが繰り返し作業やルーチンワークを肩代わりしてくれることで、人手をうまく最適化できるようになります。
開発期間を短縮できる!
コードを自動で書いてくれたり、不具合を先に見つけてくれたりするので、開発のスピードが一気に上がります。
開発未経験でも開発に関与しやすくなる!
LLMの性能向上により、開発未経験者でもAIとやり取りしながら開発を進められるように。
これにより、ビジネスサイドや現場担当者が開発に関与するハードルがぐっと低くなりました。
チームの開発背景と選定理由
今、私たちは、3人で自社の予算実績管理システムの開発をしています。
取り組み始めた当初、開発の進め方を検討する中で「AI駆動開発」という選択肢があることを知り、早速取り入れてみることにしました。
さらに調べてみると、「AI駆動開発ツール」は複数あり、それぞれ使用感が異なることも分かりました。
そこで、「どのツールが私たちの開発に合うのか?」を探るために、いくつかのツールを無料プランで実際に試してみました。
今回の記事では、実際に試して分かったことについて、「ツール紹介編」「比較編」の前後半に分けてご紹介していきます。
AI駆動開発ツール、何を基準に選ぶ?
なぜ「比較」という方法をとったのか
今、AI駆動開発ツールは急速に発展しており、それぞれに異なる強みがあります。
そんな中で今回の開発に最適なツールを選ぶためには、実際に使ってみて肌感で比べるのが一番!
ということで、私たちは6つのツールを実際に試してみて、一定の基準に沿って評価を行いました。
比較する6つのツールをざっくり紹介
今回比較したのは、以下の6つのAI駆動開発ツールです。
・AIDE(エー・アイ・ディー・イー)
・Cline
・Cursor
・GitHub Copilot
・Trae(トレイ)
・Windsurf
社内の勉強会で話題に挙がったツールや、ネット上での評価が高いツールを中心にピックアップしてみました。
各ツールの特徴については、次章以降で詳しくご紹介します。
どんな観点で評価したのか
ツールの良し悪しは、単純に「正しい出力が返ってくるかどうか」だけでは判断できません。
例えばツール操作のしやすさや、継続的な運用との相性など、様々な視点から評価する必要があると考えました。
そこで今回は、以下の9つの観点で評価を行いました。
応答速度 |
AIに対して与える指示や質問(プロンプト)に対する返答の早さ |
正確さ |
意図した内容に対して、正しいアウトプットが得られるか |
話の理解度 |
文脈や開発意図をどこまで読み取ってくれるか |
ツールの使いやすさ |
UIや操作感、セットアップのしやすさ |
機能の豊富さ |
コーディング以外の補助機能やユースケースの広さ |
カスタマイズ性 |
拡張機能の豊富さ |
技術情報サイトの充実度 |
公式ドキュメントや活用ノウハウの豊富さ |
開発企業の将来性 |
サービス継続性・技術力・信頼性など |
費用面 |
継続利用におけるコストパフォーマンス |
どうやって比較したのか(評価方法と前提条件)
評価にあたり、チームメンバー全員で、それぞれのツールを実際にインストールして操作してみました。
評価の軸は共通にしつつ、実際に試したプロンプト内容はメンバーによって異なるため、完全な横並びの比較ではない点についてはあらかじめご留意ください。
実施したプロンプトは以下の通りです。
Aさん |
テーブルの命名規則やデータ項目をもとに、テーブル定義書とSQLを作ってもらう。 |
Bさん |
UIイメージ画像を読み込ませて、フロントエンドの言語(TypeScript)とフレームワーク(Vue.js)でのコーディングとプロトタイプ構築をしてもらう。 |
Cさん |
フロントエンドの言語(TypeScript)とフレームワーク(Vue.js)で、Webアプリのヘッダーを作ってもらう。 |
このように「実際に現場でありそうなケース」を想定した検証を行うことで、机上調査では見えにくい実用性を探りました。
使ってわかった、それぞれのAI駆動開発ツールの“個性”
今回の検証では、チームメンバーそれぞれが別のタスク(SQL作成・UI構築・TypeScriptコーディングなど)で、異なるツールを使ってみました。
ここでは、その体験から見えてきた「ツールごとの印象」や「雰囲気」をあくまでライトにご紹介します。
Cursor |「頼れる説明上手」
ひとつひとつの操作に理由を添えてくれる“家庭教師”のような存在です。
Cursorは、コードの修正や提案に対して、「どう変えたのか」「なぜそうしたのか」をしっかり説明してくれました。
UIイメージからのプロトタイプ作成にも挑戦してみましたが、途中でエラーが発生し、完成までは至らず。
エラー対応には少し根気が必要かもしれません。
とはいえ、全体的には「一緒に学びながら開発してくれる」ような安心感があり、じっくり進めたいチーム開発に向いていそうな印象でした。
Windsurf |「黙々と動く自動実行タイプ」
一言でいうと、「とにかく仕事が早い」。
無言でテキパキ作業をこなす職人タイプです。
指定したパスにファイルを作ってコードを書き込んでくれるなど、自動化レベルが高く、スピード重視の場面では大活躍。
ただ、「どこがどう変わったのか」が分かりづらい場面もあるので、進捗の確認やコードの追跡はちょっと気を遣います。
GitHub Copilot |「いつものIDEに溶け込む相棒」
頼れるけど、細かいお願いにはちょっと頑固な“こだわり強めな先輩”のような存在です。
IDE(※)と一体化して使えるのが最大の魅力。
ただ、複雑な修正を頼むと堂々巡りになることも。
うまく使うには、ある程度の“さじ加減”が必要かもしれません。
※IDE(アイ・ディー・イー)とは 「Integrated Development Environment(統合開発環境)」 の略で、ソフトウェア開発を効率的に行うためのツールが一つにまとめられたアプリケーション。
Trae |「無料で最新機能を体験!けど、ちょっと不安定」
“最新型の試作品ロボ”のような存在です。
現状全ての機能を無料で使用できますが、途中で固まったり、何度も同じエラーを繰り返したりと、挙動にムラがあるのが気になるところ。
『プロトタイプ確認まで実行したいです』と指示を出しているのに、そこまで至らずに会話が終了する場合もありました。
Cline |「高性能だけど、ちょっとクセあり」
爆発的な速さを秘めつつも、扱いに熟練を要する“F1マシン”のような存在です。
読み取り精度や応答の正確さは高く、UIイメージ画像を読み込ませたときの理解力も◎。
ただ、コマンドの合間に英語のメッセージが出力されますが“何をしているのか”状況が分かりづらく、最初は戸惑うかもしれません。
AIDE | 「・・・」
残念ながら、AIDEは私たちの環境ではインストールにすらたどりつけませんでした。
海外フォーラムの情報も古く、ローカル環境で使うにはややハードルが高そう…。
とはいえ、コンテキスト認識が良い等ポジティブな評価もあり、使いこなせば魅力のあるツールかもしれません。
今回は見送りましたが、今後再検証する可能性もありそうです。
さいごに
以上が、6つのツールを実際に試してみた私たちの「ざっくりレビュー」です。
ツールごとの“個性”や使い心地の違い、少しでも伝わったでしょうか?
……ということで、「ツール紹介編」はここまで。
後編では、各ツールの実力をランク付けした「評価編」をお届けします。
どうぞお楽しみに!