GoogleがGemini Ultra・Gemini Advanced公開/Appleの文章で画像を編集するAI/OpenAIがAIエージェント開発の噂【今週公開の最新AIツール&ニュース】

GoogleがGemini Ultra・Gemini Advanced公開/Appleの文章で画像を編集するAI/OpenAIがAIエージェント開発の噂【今週公開の最新AIツール&ニュース】

皆さんこんにちは今回の動画ではついに公開されたGoogleの革新的な llmジミウルトラの概要 Microsoftのコパイロットに実装された画像編集機能自分の声をクローンできる音声合成AIツールテキストで画像を編集できるAppleのAIツールなどここ1週間の間にリリースされた最新の AIツールの概要と使い方を開始オAIの AIエージェント開発情報インスタなどに投稿されるAI画像にラベルが導入されるなどのAI関連の最新ニュースをお届けしますそれではよろしくお願いし [音楽] ますまずはジミアドバンスドとジミウルトラの紹介です2024年2月8日 Googleは同社のAIチャットとバードをジェミニと名称変更しウェブページもリニューアルしましたパソコン版のジェミニは画面左上にある3本線アイコンを押せばチャットGPTのような感じで左側のチャット履歴を隠せるようになり画面右上に密集していた設定類は画面左下に移動していますまたジェミニの上位バージョンジェミニアドバンスドが公開されましたジェミニアドバンスドはGoogleが提供するオンラインストレージサービス Google1の2ヶ月無料月額 2900円のAIプレミアムプランに加入すればジェミニのページでジェミニとジェミニアドバンスドを切り替えて使えるようになりますジェミニアドバンスドには Googleの最新大規模言語モデルジェミニウルトラが実装されておりジェミニウルトラについて GoogleはOpenAIの大規模言語モデルGPT4を超えるレベルのllmだとアナウンスしていますなおジェミニウルトラを実装したジェミニアドバンスドで日本語も使えますが公式では英語のみに対応となっていますジェミニアドバンスドとジェミニウルトラに関しては別動画で詳しく解説していますので詳細が気になる方はこちらをご覧ください続いては Galileo1.0の紹介です garireoAIはテキストからウェブサイトのユーザーインターフェイスを作れるAIツールgalo1.0を公開しましたgalleo1.0はツールページ右上のサインアップボタンを押して Googleアカウントなどを利用してログインすれば初回200クレジットが付与されクレジットが尽きるまで無料で利用できますグイン後の画面左上の

テキストtoUIボタンを押した先の画面でフームに作りたいウェブサイトのUI イメージをテキスト入力しモバイルか Webかを選択してジェネレートボタンを押せばUIデザイン画像が生成され作った画像をダウンロードできますまた画面左側のイーtoUIボタンを押した先の画面ではウェブサイトのスクリーンショットをアップロードしてテーマなどを指示すると UIデザイン画像が生成され作った画像をダウンロードできます無料プランでは毎月 200クレジットが付与されUIを生成したり編集すると10から20クレジット消費するようで作ったUI画像はツール画面左上のエクスプロアを押して出てくるページで他のユザーに公開される可能性がありますが有料登録するとより多くののクレジットが付与されプライベート設定もできるようです続いてはコパイロットの新モデルと画像編集機能の紹介ですマイクロソフトのコパイロットエンジニアのジョルデリバ氏は自身のXを更新して同社のAI チャットボットコパイロットに関してチャットで使えるバランスモードにてコパイロットをよりリッチかつ高速にする微調整モデルであるリュカを実装したと投稿しましたまたMicrosoftは同社の AIチャットボットコパイロットで生成した画像をインライン編集する機能を実装したと発表しました生成した画像内のオブジェクトをハイライトして色を強調させたり画像の背景をぼかして飛車体を輝かせたりピクセルアートのような別の効果で画像を再構築したりすることができるようですこれらの機能は米国や英国などの英語ユーザー向けにすでに展開されているようでこの動画を作っているタイミングでは日本語環境のコパイロットでは使えませんでした続いてはスタイルバートビ2 バージョン2.1の紹介ですテキストを入力すると感情豊かな日本語音声を出力してくれる音声合成AIツールの最新版スタイルバートビッツ2バージョン2.1 が公開されましたこのツールは中国初のオープンソース音声合成技術バート bitz2を日本語に特化させたものですハギングFACEにスタイルバートビッツ 2のデモが公開されていて画面上部の左上からモデルを選んでロードボタンを押した後テキストの部分にモデルに喋らせたい日本語文言をテキスト入力して音声合成ボタンを押すとこんな感じの音声が出力されますこんにちはこれは音声合成ツールのデモ音声ですいかがでしょう無調整でもこの

品質ですがデモではアクセントの調整などの細かい設定もできますなお最新版のスタイルバートbitz2バージョン 2.1についてはダウンロードして回答後に特定のファイルをダブルクリックすればインストールできるWindowパソコン用のインストーラーがキハに用意されておりこちらを使うと自分の声を学習させて学習させた音声に日本語テキストを喋らせることもできます続いてはメタボイス1 Bの紹介ですメタボイスは10万時間の音声でトレーニングされたオープンソースのテキスト読み上げAIツールメタボイス 1bを公開しました対応している言語は英語だけですが音声をクローンしてテキストを読み上げさせることもできソースコードはgitHUBで提供されています無料のデモも公開されていてフォームに話してもらいたい英語テキストを入力しチズボイスの部分でプリセットを選択してプリセットboiesの部分でボイスを選びジェネレートスピーチボタンを押すと選択したボイスでテキストが再生される音声データがまたボイスの部分でアップロードターゲットボイスを選び30秒から90秒の音声をアップロードしてジェネレートスピーチボタンを押すとアップロードしたボイスをクローンしてテキストが再生されます私のボイスをクローンさせて出力された音声はこんな感じになりますいかがでしょうかうくできていると思いますまだ日本語には対応していないようですが今後他言語に対応してくれることが期待されます続いてはMGの紹介ですAppleの研究者らは画像編集ソフトなどを使うことなくテキストで指示することで画像を編集できるオープンソースのAI技術MGを公開しましたMG はマルチモーダル規模言語モデルと画像編集モデルを組み合わせることにより命令ベースの画像編集を実行できるとのことですプロジェクトページを見ると画像内の対象物の色を変えたりテキストを削除したり明るさを変えたり画像の中にオブジェクトを追加したりできるようでgitHUBでソースコードが提供されていますハギングフェスで無料のデモも公開されていてインプットイメージの部分に画像をアップロードしインストラクションの部分に画像をどのように変えたいかの指示をテキスト入力して送信ボタンを押せば指示内容が反映された形の画像が生成され生成された画像をダウンロードできます将来的

には画像編集ソフトにもこういった技術が導入されテキストで自由自在に画像を編集できる時代が来そうです続いてはク1.の紹介ですアリババは同社のオープンソース大規模言語モデルの最新版クン1.5を公開しましたクン1.5は0.5Bから 72BまでのK6モデルで展開されていますクン1.5のプロジェクトページには他のllmとの性能比較表がありそれによると有名llmベンチマークmmlなどで位の72BモデルがNam270B mikal8x7bなどの他社のオープンソースllmの上位モデルのスペックを上回っているようですハギングフェイスで最上位版のquen1.572Bにチャット機能を実装したquen1.5 72Bチャットの無料のデモが公開されておりインプットの部分にテキストを入力して先ボタンを押すとチャットGPTと同じような感じでチャットできます回答に少し中国語が混じることもありますが日本語入力にも対応しているので気になった方はデモを試してみてください続いてはポケLエルモンの紹介ですジョージア効果大学の研究者らは任天のゲームポケモンにインスパイアを受けたポケモンバトルを行う大規模言語モデルを実装した自立型AIエージェントポケールエルモンを公開しましたポケールエルモンには戦闘から学んで次の行動を改良する教科学習外部の知識を取得して厳格を軽減し適切に行動できるようにする知識拡張生成複数の選択肢があった場合に最も効果的な行動を選ぶ一貫したアクションの生成という3つの戦略が組み込まれているとのことですソースコードはギットハブで提供されていてネット上にあるポケモンのバトルシミュレーターポケモンシーダウン上でポケLエルモンを使い戦闘している動画を見ることもできますなおポケエルモンを使うとラダー大会で約49の勝率を招待プレイヤーとの対戦で約56の勝率を出せたとのことです続いてはストラクトIRの紹介です劣化した画像をテキスト指示によって綺麗に復元できる AIツールインストラクタIRが公開されました画像のノイズ除去水滴除去ぼかし除去カス除去といった処理が可能だということでソースコードはGHUBで提供されていますハギングフェスで無料のデモが公開されていてインプットの部分に画像をアップロードしてプロンプトの部分にアップロードした画像をどのように処理したいかをテキスト入力しサブミッシブ

2の紹介です画像をアップロードすると画像を分析して画像に表示されている内容をテキストに変換しキスト内容を元に音楽を生成してくれるAIツールの最新版IM tomusicバージョン2が公開されましたツールはハギングフェスで無料で利用できイメージリファレンスの部分に画像をアップロードしてズアモデルの部分で音楽生成AIモデルを選択しmake Musicfrommyピックボタンを押すと画像の内容をテキスト化したものが生成されその後このような感じの音楽が生成されますいかがでしょうか画像のイメージを反映していてそこそこいい感じだと思いますし以前のバージョンよりもクオリティが上がっていると思います面白い試みのツールだと思いますので興味のあるはデモを触ってみて [音楽] くださいここからは今週発表されたai 関連のニュースを簡単にまとめて紹介しますまずはオAIがAIエージェントを開発化の話題ですテクノロジー系の情報を配信しているザインフォメーションは OpenAIがユーザーのデバイスを操作して複雑なタスクを自動化するエージェントツールの開発に取り組んでいると報じましたこのエージェントツールを使うと企業に関する公開データを収集したり旅行の予定の作成航空券の予約などの Webベースのタスクを自動的に処理してくれるようです簡単な指示で細かい作業を自動的にこなしてくれるAIエージェントはAIの自世代ムーブメントとして注目されており今後のオープAIの同行にに注目です続いてはOpenAIがD3で生成した画像にすかし導入の話題ですOpen AIはチットGPT経由で画像生成AI モデルD3を使って生成した画像とダリー 3のAPI経由で生成された画像にC2 PAAメタデータを含むように対応したと発表しましたC2PAAはコンテンツの制作者や編集履歴などの情報をユーザーに提示するための技術です試しに画像の認証情報を確認できるページでチットGPTのダリー3経由で作った画像の詳細を確認したところ発行もがOpenAIでChat GPTで生成されたと表示されましたなお D3で生成した画像にC2PAAメタデータが組み込まれることで画像のファイルサイズが若大きくなるようです続いてはメタがインスタなどのAI投稿画像にラベル付けの話題ですメタは同社の開発するInstagram

Facebookスレッズなどに投稿された画像が生成AIで作られた画像と検出された場合にその画像にラベルをつける予定であると発表しましたメタのニュースリリースページではGoogleOpen AIソフトadobMジャーニーシャッターストックなどの会社のツールで生成されたAI画像にラベルをつつけるとしておりラベルのイメージ画像も公開されていますなおメタは現在このラベル機能を構築中であり今後数ヶ月以内にメタの各種アプリでサポートされている全ての言語でラベルの適用を開始する予定だとしています続いてはソフトバンクが一丁パラメータのllmを開発の話題ですソフトバンクの宮川順一社長は2月7日に開催した決算説明会でソフトバンクの子会社SBイシズが開発している国産の大規模言語モデルについて将来的に一兆超えのパラメータ数を目指すと発表しましたパラメータというのはllmの性能指標の 1つで一般的にこの数が大きいほど高性能だと言われておりオAIの最新大規模言語モデルGPT4のパラメータ数は 5000億から1兆程度だと推定されています宮川社長は当面は3900パラメータで文書や画像などを処理できるマルチモーダル大規模言語モデルを 2024年中に完成させるのが目標だとしています続いてはアームの決算が好調の話題ですソフトバンクグループの参加イギリスの反動体設計大手アームは2月7 日に2023年10月から12月期決算を発表し売上高が市場予想を上回りました AI向けの反動体の設計技術に対するロイヤリティの支払いが増えているようで好調な決算を受けてアームの株価は上昇しましたが相場効果でソフトバンクグループの株価も進しましたなおこの動画で紹介した記事やツールなどのリンクは動画の概要欄に貼っていますAIツールに興味のある方は是非自分の手で試してみてくださいそれでは次回の動画でお会いしましょう OG

◆動画の説明
今週リリースされたAIツールやAIニュースをまとめています
ツールはなるべく無料で使えるモノを中心に紹介します！

◆動画のもくじ
0:00　動画のもくじ
0:49　Googleの最新LLM「Gemini Ultra」登場
2:29　テキスト→UI生成AI「Galileo 1.0」
4:04　Copilotに新モデルと画像編集機能実装
5:12　テキスト→日本語音声生成AI「Style-Bert-VITS2」
6:43　音声クローン→テキスト読み上げAI「MetaVoice-1B」
8:08　Appleのテキスト→画像編集AI「MGIE」
9:27　アリババの最新LLM「Qwen 1.5」
10:43　ポケモンバトルを行うLLM「PokéLLMon」
11:57　劣化画像を復元するAI「InstructIR」
12:44　画像→音楽生成AI「Image to Music V2」
14:05　OpenAIがAIエージェントを開発か？
15:00　OpenAIがDALL-E 3で生成した画像に透かし導入
16:00　MetaがインスタなどのAI投稿画像にラベル付け
16:57　ソフトバンクが1兆パラメータのLLMを開発
17:56　ソフトバンク傘下のアームの決算が好調
18:32　エンディングムービー

◆動画の中で紹介している内容
Gemini Advanced、GPT-4、MLLM-Guided Image Editi
MMLU、Instagram、Facebook、Threads

◆参考サイト(※URLの先頭に「h」をつけてください)
・Gemini Ultra
ttps://japan.googleblog.com/
・Galileo 1.0
ttps://www.usegalileo.ai/explore
・Copilot
ttps://twitter.com/JordiRib1/status/1755249265604239444
ttps://blogs.microsoft.com/blog/2024/02/07/delivering-copilot-for-everyone/
・Style-Bert-VITS2
ttps://github.com/litagin02/Style-Bert-VITS2
ttps://huggingface.co/spaces/litagin/Style-Bert-VITS2-JVNV
・MetaVoice-1B
ttps://themetavoice.xyz/
ttps://ttsdemo.themetavoice.xyz/
・MGIE
ttps://mllm-ie.github.io/
ttps://huggingface.co/spaces/tsujuifu/ml-mgie
・Qwen 1.5
ttps://qwenlm.github.io/blog/qwen1.5/
ttps://huggingface.co/spaces/Qwen/Qwen1.5-72B-Chat
・PokéLLMon
ttps://arxiv.org/abs/2402.01118
ttps://github.com/git-disl/PokeLLMon
・InstructIR
ttps://huggingface.co/spaces/marcosv/InstructIR
・Image to Music V2
ttps://huggingface.co/spaces/fffiloni/image-to-music-v2
・ニュース
ttps://www.theinformation.com/articles/openai-shifts-ai-battleground-to-software-that-operates-devices-automates-tasks
ttps://help.openai.com/en/articles/8912793-c2pa-in-dall-e-3
ttps://about.fb.com/news/2024/02/labeling-ai-generated-images-on-facebook-instagram-and-threads/
ttps://www.softbank.jp/sbnews/entry/20240206_02
ttps://www.bloomberg.co.jp/news/articles/2024-02-08/S8IF7ET0AFB400

◆参考動画
Find, create and get things done faster with Microsoft Copilot

Bard becomes Gemini | Ultra 1.0 and a new mobile app

Google Gemini Ultra/Gemini Advanced全機能解説！～ChatGPTのGPT-4との比較など～

▼オススメ動画
「堀江貴文のChatGPT大全」を世界一わかりやすく解説！【AIベストセラー本要約】

ChatGPTの革新的活用事例20選！～OpenAI DevDayで発表のGPT-4 Turbo with vision、GPTsなど～

ChatGPTをめっちゃ便利にする海外製GPTsベスト20！～GPT-5シミュレート、仮想Grok、動画生成、論文検索～

自作ChatGPT「GPTs」人気ベスト30！ 8000個の中から厳選！～GPTsの作り方や制作時の注意点まとめも～

▼SNS
作成中・・・

▼どんなチャンネル？
当面の間は週に2,3本更新予定
案内人のアンドロイドが
毎日煩雑な情報が飛び交うAI(ChatGTP)の話題を中心に
関連情報をまとめて公開します！
管理人：ミライ
※すべてソースを基に制作しています
みなさんぜひコメントをどしどしお願いします！

#gemini #google #copilot #bard #chatgpt #チャットgpt #AI #画像生成 #生成AI #gpt4

5 Comments

@AIAIChatGPT-cj4sh 4 months ago

◆動画のもくじ

0:00　動画のもくじ

0:49　Googleの最新LLM「Gemini Ultra」登場

2:29　テキスト→UI生成AI「Galileo 1.0」

4:04　Copilotに新モデルと画像編集機能実装

5:12　テキスト→日本語音声生成AI「Style-Bert-VITS2」

6:43　音声クローン→テキスト読み上げAI「MetaVoice-1B」

8:08　Appleのテキスト→画像編集AI「MGIE」

9:27　アリババの最新LLM「Qwen 1.5」

10:43　ポケモンバトルを行うLLM「PokéLLMon」

11:57　劣化画像を復元するAI「InstructIR」

12:44　画像→音楽生成AI「Image to Music V2」

14:05　OpenAIがAIエージェントを開発か？

15:00　OpenAIがDALL-E 3で生成した画像に透かし導入

16:00　MetaがインスタなどのAI投稿画像にラベル付け

16:57　ソフトバンクが1兆パラメータのLLMを開発

17:56　ソフトバンク傘下のアームの決算が好調

18:32　エンディングムービー
@user-jo1hf7hm3w 4 months ago

Geminiウルトラは日本語に対応しないとなんともいえませんねえ
@oppansham 4 months ago

毎度ありがとうございます。
@printmax5843 4 months ago

中国のAIは、画像・動画・音楽の分野に期待してます

中国のテキスト系AIはいくら性能が上がっても、

中国共産党の検閲で、まともな答えが返って来ない場合があります（特に政治分野）

「Qwen 1.5」も、中国の政治について色々質問してもまともな返答がないです

ちなみに、Copilotでは詳細な返答があります
@mori46810 4 months ago

すごいですね！

Write A Comment

You must be logged in to post a comment.