Search for:
地下アイドル

GoogleがGemini Ultra・Gemini Advanced公開/Appleの文章で画像を編集するAI/OpenAIがAIエージェント開発の噂【今週公開の最新AIツール&ニュース】



GoogleがGemini Ultra・Gemini Advanced公開/Appleの文章で画像を編集するAI/OpenAIがAIエージェント開発の噂【今週公開の最新AIツール&ニュース】

皆さんこんにちは今回の動画ではついに 公開されたGoogleの革新的な llmジミウルトラの概要 Microsoftのコパイロットに実装 された画像編集機能自分の声をクローン できる音声合成AIツールテキストで画像 を編集できるAppleのAIツールなど ここ1週間の間にリリースされた最新の AIツールの概要と使い方を開始オAIの AIエージェント開発情報インスタなどに 投稿されるAI画像にラベルが導入される などのAI関連の最新ニュースをお届けし ますそれではよろしくお願いし [音楽] ますまずはジミアドバンスドとジミ ウルトラの紹介です2024年2月8日 Googleは同社のAIチャットと バードをジェミニと名称変更しウェブ ページもリニューアルしましたパソコン版 のジェミニは画面左上にある3本線 アイコンを押せばチャットGPTのような 感じで左側のチャット履歴を隠せるように なり画面右上に密集していた設定類は画面 左下に移動していますまたジェミニの上位 バージョンジェミニアドバンスドが公開さ れました ジェミニアドバンスドはGoogleが 提供するオンラインストレージサービス Google1の2ヶ月無料月額 2900円のAIプレミアムプランに加入 すればジェミニのページでジェミニと ジェミニアドバンスドを切り替えて使える ようになりますジェミニアドバンスドには Googleの最新大規模言語モデル ジェミニウルトラが実装されており ジェミニウルトラについて GoogleはOpenAIの大規模言語 モデルGPT4を超えるレベルのllmだ とアナウンスしていますなおジェミニ ウルトラを実装したジェミニアドバンスド で日本語も使えますが公式では英語のみに 対応となっていますジェミニアドバンスド とジェミニウルトラに関しては別動画で 詳しく解説していますので詳細が気になる 方はこちらをご覧ください続いては Galileo1.0の紹介です garireoAIはテキストから ウェブサイトのユーザーインターフェイス を作れるAIツールgalo1.0を公開 しましたgalleo1.0はツール ページ右上のサインアップボタンを押して Googleアカウントなどを利用して ログインすれば初回200クレジットが 付与されクレジットが尽きるまで無料で 利用できますグイン後の画面左上の

テキストtoUIボタンを押した先の画面 でフームに作りたいウェブサイトのUI イメージをテキスト入力しモバイルか Webかを選択してジェネレートボタンを 押せばUIデザイン画像が生成され作った 画像をダウンロードできますまた画面左側 のイーtoUIボタンを押した先の画面で はウェブサイトのスクリーンショットを アップロードしてテーマなどを指示すると UIデザイン画像が生成され作った画像を ダウンロードできます無料プランでは毎月 200クレジットが付与されUIを生成し たり編集すると10から20クレジット 消費するようで作ったUI画像はツール 画面左上のエクスプロアを押して出てくる ページで他のユザーに公開される可能性が ありますが有料登録するとより多くのの クレジットが付与されプライベート設定も できるようです続いてはコパイロットの新 モデルと画像編集機能の紹介ですマイクロ ソフトのコパイロットエンジニアのジョル デリバ氏は自身のXを更新して同社のAI チャットボットコパイロットに関して チャットで使えるバランスモードにてコ パイロットをよりリッチかつ高速にする微 調整モデルであるリュカを実装したと投稿 しましたまたMicrosoftは同社の AIチャットボットコパイロットで生成し た画像をインライン編集する機能を実装し たと発表しました生成した画像内の オブジェクトをハイライトして色を強調さ せたり画像の背景をぼかして飛車体を輝か せたりピクセルアートのような別の効果で 画像を再構築したりすることができるよう ですこれらの機能は米国や英国などの英語 ユーザー向けにすでに展開されているよう でこの動画を作っているタイミングでは 日本語環境のコパイロットでは使えません でした続いてはスタイルバートビ2 バージョン2.1の紹介ですテキストを 入力すると感情豊かな日本語音声を出力し てくれる音声合成AIツールの最新版 スタイルバートビッツ2バージョン2.1 が公開されましたこのツールは中国初の オープンソース音声合成技術バート bitz2を日本語に特化させたものです ハギングFACEにスタイルバートビッツ 2のデモが公開されていて画面上部の左上 からモデルを選んでロードボタンを押した 後テキストの部分にモデルに喋らせたい 日本語文言をテキスト入力して音声合成 ボタンを押すと こんな感じの音声が出力されます こんにちはこれは音声合成ツールのデモ 音声ですいかがでしょう無調整でもこの

品質ですがデモではアクセントの調整など の細かい設定もできますなお最新版の スタイルバートbitz2バージョン 2.1についてはダウンロードして回答後 に特定のファイルをダブルクリックすれば インストールできるWindowパソコン 用のインストーラーがキハに用意されて おりこちらを使うと自分の声を学習させて 学習させた音声に日本語テキストを喋ら せることもできます続いてはメタボイス1 Bの紹介ですメタボイスは10万時間の 音声でトレーニングされたオープンソース のテキスト読み上げAIツールメタボイス 1bを公開しました対応している言語は 英語だけですが音声をクローンして テキストを読み上げさせることもでき ソースコードはgitHUBで提供されて います無料のデモも公開されていて フォームに話してもらいたい英語テキスト を入力しチズボイスの部分でプリセットを 選択してプリセットboiesの部分で ボイスを選びジェネレートスピーチボタン を押すと選択したボイスでテキストが再生 される音声データが またボイスの部分でアップロード ターゲットボイスを選び30秒から90秒 の音声をアップロードしてジェネレート スピーチボタンを押すとアップロードした ボイスをクローンしてテキストが再生され ます私のボイスをクローンさせて出力され た音声はこんな感じになり ますいかがでしょうかうくできていると 思いますまだ日本語には対応していない ようですが今後他言語に対応してくれる ことが期待されます続いてはMGの紹介 ですAppleの研究者らは画像編集 ソフトなどを使うことなくテキストで指示 することで画像を編集できるオープン ソースのAI技術MGを公開しましたMG はマルチモーダル 規模言語モデルと画像編集モデルを 組み合わせることにより命令ベースの画像 編集を実行できるとのことです プロジェクトページを見ると画像内の対象 物の色を変えたりテキストを削除したり 明るさを変えたり画像の中にオブジェクト を追加したりできるようでgitHUBで ソースコードが提供されていますハギング フェスで無料のデモも公開されていて インプットイメージの部分に画像を アップロードしインストラクションの部分 に画像をどのように変えたいかの指示を テキスト入力して送信ボタンを押せば指示 内容が反映された形の画像が生成され生成 された画像をダウンロードできます将来的

には画像編集ソフトにもこういった技術が 導入されテキストで自由自在に画像を編集 できる時代が来そうです続いてはク1.の 紹介ですアリババは同社のオープンソース 大規模言語モデルの最新版クン1.5を 公開しましたクン1.5は0.5Bから 72BまでのK6モデルで展開されてい ますクン1.5のプロジェクトページには 他のllmとの性能比較表がありそれに よると有名llmベンチマークmmlなど で位の72BモデルがNam270B mikal8x7bなどの他社のオープン ソースllmの上位モデルのスペックを 上回っているようですハギングフェイスで 最上位版のquen1.572Bに チャット機能を実装したquen1.5 72Bチャットの無料のデモが公開されて おりインプットの部分にテキストを入力し て先ボタンを押すとチャットGPTと同じ ような感じでチャットできます回答に少し 中国語が混じることもありますが日本語 入力にも対応しているので気になった方は デモを試してみて ください続いてはポケLエルモンの紹介 ですジョージア効果大学の研究者らは任天 のゲームポケモンにインスパイアを受けた ポケモンバトルを行う大規模言語モデルを 実装した自立型AIエージェントポケール エルモンを公開しましたポケールエルモン には戦闘から学んで次の行動を改良する 教科学習外部の知識を取得して厳格を軽減 し適切に行動できるようにする知識拡張 生成複数の選択肢があった場合に最も効果 的な行動を選ぶ一貫したアクションの生成 という3つの戦略が組み込まれているとの ことですソースコードはギットハブで提供 されていてネット上にあるポケモンの バトルシミュレーターポケモンシーダウン 上でポケLエルモンを使い戦闘している 動画を見ることもできますなおポケ エルモンを使うとラダー大会で約49の 勝率を招待プレイヤーとの対戦で約56の 勝率を出せたとのことです続いては ストラクトIRの紹介です劣化した画像を テキスト指示によって綺麗に復元できる AIツールインストラクタIRが公開され ました画像のノイズ除去水滴除去ぼかし 除去カス除去といった処理が可能だという ことでソースコードはGHUBで提供され ていますハギングフェスで無料のデモが 公開されていてインプットの部分に画像を アップロードしてプロンプトの部分に アップロードした画像をどのように処理し たいかをテキスト入力し サブミッシブ

2の紹介です画像をアップロードすると 画像を分析して画像に表示されている内容 をテキストに変換しキスト内容を元に音楽 を生成してくれるAIツールの最新版IM tomusicバージョン2が公開され ましたツールはハギングフェスで無料で 利用できイメージリファレンスの部分に 画像をアップロードしてズアモデルの部分 で音楽生成AIモデルを選択しmake Musicfrommyピックボタンを 押すと画像の内容をテキスト化したものが 生成されその後このような感じの音楽が 生成され ますいかがでしょうか画像のイメージを 反映していてそこそこいい感じだと思い ますし以前のバージョンよりもクオリティ が上がっていると思います面白い試みの ツールだと思いますので興味のあるはデモ を触ってみて [音楽] くださいここからは今週発表されたai 関連のニュースを簡単にまとめて紹介し ますまずはオAIがAIエージェントを 開発化の話題ですテクノロジー系の情報を 配信しているザインフォメーションは OpenAIがユーザーのデバイスを操作 して複雑なタスクを自動化する エージェントツールの開発に取り組んで いると報じましたこのエージェントツール を使うと企業に関する公開データを収集し たり旅行の予定の作成航空券の予約などの Webベースのタスクを自動的に処理して くれるようです簡単な指示で細かい作業を 自動的にこなしてくれるAIエージェント はAIの自世代ムーブメントとして注目さ れており今後のオープAIの同行にに注目 です続いてはOpenAIがD3で生成し た画像にすかし導入の話題ですOpen AIはチットGPT経由で画像生成AI モデルD3を使って生成した画像とダリー 3のAPI経由で生成された画像にC2 PAAメタデータを含むように対応したと 発表しましたC2PAAはコンテンツの 制作者や編集履歴などの情報をユーザーに 提示するための技術です試しに画像の認証 情報を確認できるページでチットGPTの ダリー3経由で作った画像の詳細を確認し たところ発行もがOpenAIでChat GPTで生成されたと表示されましたなお D3で生成した画像にC2PAAメタ データが組み込まれることで画像の ファイルサイズが若大きくなるようです 続いてはメタがインスタなどのAI投稿 画像にラベル付けの話題ですメタは同社の 開発するInstagram

Facebookスレッズなどに投稿され た画像が生成AIで作られた画像と検出さ れた場合にその画像にラベルをつける予定 であると発表しましたメタのニュース リリースページではGoogleOpen AIソフトadobMジャーニー シャッターストックなどの会社のツールで 生成されたAI画像にラベルをつつけると しておりラベルのイメージ画像も公開され ていますなおメタは現在このラベル機能を 構築中であり今後数ヶ月以内にメタの各種 アプリでサポートされている全ての言語で ラベルの適用を開始する予定だとしてい ます続いてはソフトバンクが一丁 パラメータのllmを開発の話題です ソフトバンクの宮川順一社長は2月7日に 開催した決算説明会でソフトバンクの 子会社SBイシズが開発している国産の大 規模言語モデルについて将来的に一兆超え のパラメータ数を目指すと発表しました パラメータというのはllmの性能指標の 1つで一般的にこの数が大きいほど高性能 だと言われておりオAIの最新大規模言語 モデルGPT4のパラメータ数は 5000億から1兆程度だと推定されてい ます宮川社長は当面は3900パラメータ で文書や画像などを処理できる マルチモーダル大規模言語モデルを 2024年中に完成させるのが目標だとし ています続いてはアームの決算が好調の 話題ですソフトバンクグループの参加 イギリスの反動体設計大手アームは2月7 日に2023年10月から12月期決算を 発表し売上高が市場予想を上回りました AI向けの反動体の設計技術に対する ロイヤリティの支払いが増えているようで 好調な決算を受けてアームの株価は上昇し ましたが相場効果でソフトバンクグループ の株価も進しまし たなおこの動画で紹介した記事やツール などのリンクは動画の概要欄に貼ってい ますAIツールに興味のある方は是非自分 の手で試してみてくださいそれでは次回の 動画でお会いし ましょう OG

◆動画の説明
今週リリースされたAIツールやAIニュースをまとめています
ツールはなるべく無料で使えるモノを中心に紹介します!

◆動画のもくじ
0:00 動画のもくじ
0:49 Googleの最新LLM「Gemini Ultra」登場
2:29 テキスト→UI生成AI「Galileo 1.0」
4:04 Copilotに新モデルと画像編集機能実装
5:12 テキスト→日本語音声生成AI「Style-Bert-VITS2」
6:43 音声クローン→テキスト読み上げAI「MetaVoice-1B」
8:08 Appleのテキスト→画像編集AI「MGIE」
9:27 アリババの最新LLM「Qwen 1.5」
10:43 ポケモンバトルを行うLLM「PokéLLMon」
11:57 劣化画像を復元するAI「InstructIR」
12:44 画像→音楽生成AI「Image to Music V2」
14:05 OpenAIがAIエージェントを開発か?
15:00 OpenAIがDALL-E 3で生成した画像に透かし導入
16:00 MetaがインスタなどのAI投稿画像にラベル付け
16:57 ソフトバンクが1兆パラメータのLLMを開発
17:56 ソフトバンク傘下のアームの決算が好調
18:32 エンディングムービー

◆動画の中で紹介している内容
Gemini Advanced、GPT-4、MLLM-Guided Image Editi
MMLU、Instagram、Facebook、Threads

◆参考サイト(※URLの先頭に「h」をつけてください)
・Gemini Ultra
ttps://japan.googleblog.com/
・Galileo 1.0
ttps://www.usegalileo.ai/explore
・Copilot
ttps://twitter.com/JordiRib1/status/1755249265604239444
ttps://blogs.microsoft.com/blog/2024/02/07/delivering-copilot-for-everyone/
・Style-Bert-VITS2
ttps://github.com/litagin02/Style-Bert-VITS2
ttps://huggingface.co/spaces/litagin/Style-Bert-VITS2-JVNV
・MetaVoice-1B
ttps://themetavoice.xyz/
ttps://ttsdemo.themetavoice.xyz/
・MGIE
ttps://mllm-ie.github.io/
ttps://huggingface.co/spaces/tsujuifu/ml-mgie
・Qwen 1.5
ttps://qwenlm.github.io/blog/qwen1.5/
ttps://huggingface.co/spaces/Qwen/Qwen1.5-72B-Chat
・PokéLLMon
ttps://arxiv.org/abs/2402.01118
ttps://github.com/git-disl/PokeLLMon
・InstructIR
ttps://huggingface.co/spaces/marcosv/InstructIR
・Image to Music V2
ttps://huggingface.co/spaces/fffiloni/image-to-music-v2
・ニュース
ttps://www.theinformation.com/articles/openai-shifts-ai-battleground-to-software-that-operates-devices-automates-tasks
ttps://help.openai.com/en/articles/8912793-c2pa-in-dall-e-3
ttps://about.fb.com/news/2024/02/labeling-ai-generated-images-on-facebook-instagram-and-threads/
ttps://www.softbank.jp/sbnews/entry/20240206_02
ttps://www.bloomberg.co.jp/news/articles/2024-02-08/S8IF7ET0AFB400

◆参考動画
Find, create and get things done faster with Microsoft Copilot

Bard becomes Gemini | Ultra 1.0 and a new mobile app

Google Gemini Ultra/Gemini Advanced全機能解説! ~ChatGPTのGPT-4との比較など~

▼オススメ動画
「堀江貴文のChatGPT大全」を世界一わかりやすく解説!【AIベストセラー本要約】

ChatGPTの革新的活用事例20選!~OpenAI DevDayで発表のGPT-4 Turbo with vision、GPTsなど~

ChatGPTをめっちゃ便利にする海外製GPTsベスト20!~GPT-5シミュレート、仮想Grok、動画生成、論文検索~

自作ChatGPT「GPTs」人気ベスト30! 8000個の中から厳選! ~GPTsの作り方や制作時の注意点まとめも~

▼SNS
作成中・・・

▼どんなチャンネル?
当面の間は週に2,3本更新予定
案内人のアンドロイドが
毎日煩雑な情報が飛び交うAI(ChatGTP)の話題を中心に
関連情報をまとめて公開します!
管理人:ミライ
※すべてソースを基に制作しています
みなさんぜひコメントをどしどしお願いします!

#gemini #google #copilot #bard #chatgpt #チャットgpt #AI #画像生成 #生成AI #gpt4

5 Comments

  1. ◆動画のもくじ

    0:00 動画のもくじ

    0:49 Googleの最新LLM「Gemini Ultra」登場

    2:29 テキスト→UI生成AI「Galileo 1.0」

    4:04 Copilotに新モデルと画像編集機能実装

    5:12 テキスト→日本語音声生成AI「Style-Bert-VITS2」

    6:43 音声クローン→テキスト読み上げAI「MetaVoice-1B」

    8:08 Appleのテキスト→画像編集AI「MGIE」

    9:27 アリババの最新LLM「Qwen 1.5」

    10:43 ポケモンバトルを行うLLM「PokéLLMon」

    11:57 劣化画像を復元するAI「InstructIR」

    12:44 画像→音楽生成AI「Image to Music V2」

    14:05 OpenAIがAIエージェントを開発か?

    15:00 OpenAIがDALL-E 3で生成した画像に透かし導入

    16:00 MetaがインスタなどのAI投稿画像にラベル付け

    16:57 ソフトバンクが1兆パラメータのLLMを開発

    17:56 ソフトバンク傘下のアームの決算が好調

    18:32 エンディングムービー

  2. 中国のAIは、画像・動画・音楽の分野に期待してます

    中国のテキスト系AIは いくら性能が上がっても、

    中国共産党の検閲で、まともな答えが返って来ない場合があります(特に政治分野)

    「Qwen 1.5」も、中国の政治について色々質問しても まともな返答がないです

    ちなみに、Copilotでは詳細な返答があります

Write A Comment