Page cover image

AI&Businessにようこそ

AIとビジネスの連携のためのオープンナレッジベース

注目のセクション:

業界&ユースケース一覧:

Generated with Midjourney by aiandbusiness.com

注目のインサイト:

https://developers.googleblog.com/ja/a2a-a-new-era-of-agent-interoperability/

Googleは、異なるフレームワークやベンダーに属するAIエージェント同士がスムーズに通信・連携できるようにするオープン標準「Agent2Agent(A2A)プロトコル」を発表しました。このプロトコルは、エンタープライズ向けAIシステムにおける相互運用性の課題解決を目的としており、今後のマルチエージェント環境における基盤技術として注目されています。


業界ニュース&最新動向:

Midjourney Video

Midjourneyは、静止画やアップロード画像を5〜21秒の短い動画に変換できる最初のイメージ→ビデオ生成モデル Video V1 をWebおよびDiscordで導入しました。自動・手動指定の動き、GPUコストは画像の約8倍、既存月額プラン(10ドル〜)で利用可能であり、リアルタイム・インタラクティブ世界への道を拓く一歩となっていますが、ディズニーやユニバーサルによる著作権訴訟も継続中です。

ElevenLabs Eleven v3 (alpha)

ElevenLabsは、70以上の言語、感情制御のためのインラインオーディオタグ、およびシームレスなマルチスピーカー会話のための新しいText to Dialogue APIを備えた、これまでで最も表現力豊かなテキスト読み上げモデルであるEleven v3(アルファ版)をリリースしました。これは、映画、オーディオブック、インタラクティブメディアのクリエイターにとって、AI生成音声のリアリズムにおける重要な飛躍を意味します。

Claude Opus 4 and Claude Sonnet 4

https://www.anthropic.com/news/claude-4

Anthropicは、最先端のAIモデル「Claude Opus 4」と「Claude Sonnet 4」を発表しました。Opus 4は、GPT-4.1やGemini 2.5 Proを上回るコーディングベンチマークを達成し、最大7時間の自律作業が可能です。一方、Sonnet 4は、コスト効率に優れた高精度な代替モデルで、推論能力が向上し、ショートカットの使用が65%削減されています。

Google Veo 3

Googleは最新のAIビデオ生成モデル「Veo 3」を発表しました。これにより、テキストや画像のプロンプトから高品質な映像を生成するだけでなく、ネイティブオーディオ(セリフ、効果音、環境音など)も統合され、エンドツーエンドのAI映画制作に新たな基準を打ち立てました。

この第3世代モデルは、前作のVeo 2を上回り、リアリズムの向上、プロンプトへの適応性の強化、音声と映像のシームレスな同期を実現し、クリエイターがリアルな物理表現と音響を備えた映画のようなシーンを制作できるようになりました。Veo 3は、米国のAI Ultraサブスクリプション加入者向けに、Googleの新しいFlowプラットフォームおよびGeminiアプリを通じて利用可能であり、企業ユーザーにはVertex AIを通じて提供されています。

Lovart

https://www.lovart.ai/

Lovartは、世界初のAIデザインエージェントを発表しました。これは、1つのプロンプトからロゴ、ポスター、動画、音楽などのブランドビジュアルを生成する会話型のマルチモーダルなクリエイティブアシスタントであり、直感的なコラボレーションキャンバス上で動作します。従来のAIツールとは異なり、Lovartは複数のAIモデルを統合し、編集可能なレイヤーを提供することで、ユーザーがリアルタイムでデザインを反復・洗練できる、オンデマンドのクリエイティブチームとして機能します。

OpenAI Codex

OpenAIは、ChatGPTに統合されたクラウドベースのAIコーディングエージェント「Codex」を発表しました。Codexは、機能の実装、バグ修正、テストの実行などのタスクを自律的に処理し、開発者にとって強力な仮想同僚となります。

https://openai.com/index/introducing-codex/

OpenAI o3 & o4-mini

Elevenlabs Japan

OpenAI GPT-4.1 API

https://openai.com/index/gpt-4-1/

OpenAIの「GPT-4.1」は、API経由で利用可能な新しいAIモデルファミリーで、コーディング性能、指示理解、長文コンテキスト処理において大幅な進化を遂げています。最大100万トークンのコンテキストウィンドウに対応し、前バージョンと比較してより高速かつ安定した動作、低コストを実現しています。

Google Firebase Studio

Google A2A

https://developers.googleblog.com/ja/a2a-a-new-era-of-agent-interoperability/

Googleは、異なるフレームワークやベンダーに属するAIエージェント同士がスムーズに通信・連携できるようにするオープン標準「Agent2Agent(A2A)プロトコル」を発表しました。このプロトコルは、エンタープライズ向けAIシステムにおける相互運用性の課題解決を目的としており、今後のマルチエージェント環境における基盤技術として注目されています。

Llama 4

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

Llama 4:Metaの最新オープンウェイト多モーダルAIモデルシリーズ

Llama 4は、Metaが発表した最新のオープンウェイトな多モーダルAIモデルシリーズで、テキストと画像の処理を効率化する「Mixture of Experts(MoE)」アーキテクチャを採用しています。

本シリーズには、1,000万トークンのコンテキストウィンドウを持つScoutや、多言語タスクに強みを持つMaverickなど、特徴的なモデルが含まれており、柔軟かつ高度な応用が可能です。

Kawasaki Corleo

https://www.khi.co.jp/expo2025/concept01/index.html

川崎重工「Corleo」— 万博2025で披露された次世代ロボティックビークル

Kawasakiの「Corleo(コルレオ)」は、2025年大阪・関西万博で発表された、水素駆動の四足歩行型ロボットビークルです。動物のような自然な動きを再現し、あらゆる地形に対応できる高い機動力を備えています。環境性能と適応性を両立した未来型モビリティとして、注目を集めています。

Midjourney V7

Midjourney V7は、2025年4月にリリースされた最新のAI画像生成モデルで、構図の一貫性やフォトリアルな質感が大幅に向上しています。さらに、低コストで高速に繰り返し生成が可能な「Draft Mode(ドラフトモード)」や、ユーザーの好みに基づいたパーソナライズ機能が標準搭載されており、より直感的かつ柔軟な画像生成体験を提供します。

Runway Gen-4

Runway Gen-4は、スタイルや映像の一貫性を保ちながら、シーンをまたいでキャラクター・場所・オブジェクトなどを一貫して生成できる、最新のAIメディア生成モデルです。創造性と制御性を兼ね備え、映像制作における表現力を大きく向上させます。

https://runwayml.com/research/introducing-runway-gen-4

Gemini 2.5

OpenAI GPT 4.5

OpenAIは、これまでで最も高度かつ計算負荷の高いAIモデル「GPT-4.5」を発表しました。このモデルは、より自然で感情豊かな応答を実現し、ユーザーとのインタラクションをさらに強化します。

Last updated

Was this helpful?