Skip to content
meekradio
GitHub

AI ラップアップ 2023

AI, Wrap Up16 min read

AI ラップアップ 2023

2023 は誰もが使ってみたいAIを見つけて、すぐ使えるようになった年

今年何かと話題になった ChatGPT, Copilot などのAI界隈の出来事から2023年を振り返る。

2023年のAI界隈の主な出来事

ここからは、2023年の後半までに実現されたAI技術を大雑把に振り返る。なお text-to-image, image-to-video など各AI技術カテゴリでは、数多くのプロジェクトやサービスが登場している。ここでは特定のプロジェクトやサービスの詳細は割愛し、あくまで2023年末時点でAIはどこまでできるのかを総ざらいする。

主なAI技術カテゴリ

structured data to prediction

構造化されたデータから何かを予測するAI技術カテゴリ。構造化されたデータとは、例えば以下のようなものを指す。 構造化されたデータとは、ここでは特徴量の数が有限かつ不変であるデータを指す。例えば以下のようなものが挙げられる。

  1. テーブルデータ
    1. 顧客の注文履歴、ECサイト内の回遊ログから特定商品の購買確率を予測する。
    2. 小売店の売れ行き、天気、曜日、祝日などから商品の最適な仕入れ量を予測する。
  2. 時系列データ
    1. 株価の値動きから、次の日の株価を予測する。
    2. ある道路の交通量の変動から、今後の交通量を予測する。
  3. グラフデータ
    1. あるユーザーのSNS上の友人関係から、そのユーザーの興味関心を予測する。
    2. ユーザーの好きな映画情報から、好きそうな映画をレコメンドする。
  4. その他

これらは、これまであった重回帰分析、ランダムフォレスト、SVMなどの非Deep Learning 手法で(技術的には)予測することが可能なカテゴリである。 これら技術は2023年以前から既にアカデミック分野に留まることなく、ビジネス分野への活用が進んでいる。大手のコンビニチェーンや商社のサプライチェーン最適化に代表され今や多くの企業がこうした技術を活用している。

sequence to sequence

主には言語モデルを用いて、非構造化データから非構造化データを生成するAI技術カテゴリ。非構造化データとは、例えば以下のようなものを指す。

  1. 文章
  2. 画像
  3. 動画
  4. 音声
  5. その他
    1. DNA配列
  6. text-to-text
  7. others
  8. DNA sequence to structure

ここからは、それぞれの非構造化データから、AIで何ができるようになっているのかを見る。

text-to-image

文章をインプットとして画像を生成する技術は既に実用化されている。実用化されただけではなく、仕組みを知らない人でも使えるようにWebサービスとして公開・提供すらされている。

実装例

例えば、以下のようなWebサービスがある。

  1. Dall-E
  2. Midjourney
  3. Stable Diffusion
  4. Adobe Firefly

image-to-image

画像から違う画像や画像の続きを生成するなどの技術。アニメ映画のとある1コマの画像から作品上では描かれていない画像の端の続きを生成した2023年初頭のXに上げられた投稿を皮切りにAI画像生成技術も一気に話題になった。

実装例
  1. Hugging Face Image to Image

image-to-video

image-to-text

image-to-structured data

  1. 人や動物が写った画像から姿勢推定する技術。例えば、乳幼児や要介護者が転倒したかどうかをリアルタイムに検知したり、スポーツ選手のフォームを分析したりするのに使われている。
  2. 物体検出
    1. 自動運転に使われる主な技術。車載カメラ・センサーから周囲の状況を把握するために使われている。周囲状況を把握したあとの制御には、また別のAI技術が使われている。
実装例
  1. DensePose
  2. MoveNet
  3. Tesla Autopilot
  4. Autoware

video-to-video

video-to-text

動画に映る物体を検出したり、動画の内容を要約する技術。

Upscale

画像を高精細にする技術。最近だとAdobeのソフトに搭載されていたり、軽量なモデルで iPhone, Android スマホ単体で動かせるアプリも数多く公開されている。 これは2023年以前から一般向けサービスに実用化されていて、例えば2019年には Remini がリリースされていた。

実装例
  1. Remini
  2. Adobe Super Resolution

2023年までで、AIはどこまでできるようになったのか

1人の人間ができるように、自立的に思考し次の行動を決定して実際に実行することはまだできない。

人間が達成したいタスクを決めて入力すれば、タスクを完遂するために自動でプロンプトを生成して言語モデルに与え、モデルからの出力を踏まえて、再度プロンプトを生成してモデルに与える...この一連の処理をタスクが完遂するまで繰り返すAIエージェントは既に実用化されているが、あくまで人間のタスク実行をサポートできるレベルに留まる。

AutoGPT を使って、ゲームのコンセプトを与えて放置していたらいつの間にかゲームが完成していた。

みたいな話は AutoGPT 登場時はよく聞いたものだ。確かにその短時間で動くアプリが実装できるのは大したものであるが、ではAIにもっと時間を与えればゲーム制作会社が作る品質のゲームが作れるのかというとそうではない。個人開発者のレベルにもまだまだ達していない。

人間がAIを活用する旨味は基本的に以下の3点に大別できる。

Enhance human ability

例えば...

  1. 現地語を話せない人が当地を訪れた際に、リアルタイムに自分の発言を現地語に翻訳して自分の声質を学習したAIが翻訳した現地語で相手に話すことができれば、その人のコミュニケーション能力を相当高めることができる。
  2. 問診時に医師と患者の会話を記録してAIがテキストに起こし自動でカルテを作成、適切な処方薬の候補を提案してくれれば医師は患者とのコミュニケーションに集中できる。医師1人がより多くの患者を診察できたり、また医療処置行為に充てられる時間が増えたりする。
  3. 通りを歩行中に死角になっている背後を捉えるカメラと映像を認識できるAIによって、接近する異常な車両や不審人物を検知して警告してくれれば、人間の視覚範囲を超えた危険を察知することができるようになる。

Reduce human effort

例えば...

  1. 人間が行うべきではない危険な作業や、報酬が作業内容に見合わない作業をAIに任せることで、安全を確保できたり、人間の時間をより価値のある作業に充てることができる。
  2. 災害発生地域や紛争地域で生存者を発見するための自立制御ドローン、長い会議の議事録作成など。

Reduce human bias/error by providing second opinions

例えば、犯罪捜査や裁判、医療診断などの判断が不可逆的な結果を及ぼす重大な場面で知見を有するAIが補助すれば、バイアスやエラーのもとに判断が下るリスクを今以上に減らすことができるようになる。

Enable what has been impossible for humans

例えば...

  1. 複雑かつ大量のデータの瞬時解析。AIは巨大なデータセットを瞬時に分析し、データを解釈したり予測を立てることができます。ソーシャルメディア上の大量のポストや大量のユーザーの視聴ログから、ユーザーをセグメントして最適な作品をレコメンドしたり、交通量や地域のタクシーの利用状況からタクシー車両の配置を最適化したり。
  2. 超個別化医療。常時身につけられるウェアラブルデバイスから血圧や心拍数、血中酸素濃度などのバイタルデータを取得、AIが分析して異常を検知すると着用者に通知することができたら、24時間365日診察を受けられる医療が実現できる。また疾患時には、バイタルデータを直接医療行為に活かすことができる。
  3. 自然言語理解と多言語翻訳。1つのAIモデルで幾つもの言語を扱うことができる。十数の言語を操れるマルチリンガルを無数に作ることができると言えば凄さが分かる。音声認識、text-to-speech 技術と組み合わせればスタ・ウォーズシリーズに登場する C3PO のような万能通訳AIが実現できる。遠い未来、地球外の知的生命体と出会ったとき、(おそらく)人間側には相手側の言語を操れるものは居ないが、そんなとき相手側の文献をとりあえず大量に読み込めば瞬時に翻訳が可能になるだろう。

今後AIでプロダクトを作るときは、そのプロダクトには人間にとって上記いずれかの旨味があるのかを考えれば良いと私は考える。 以上の観点で評価して複数達成していたり、複数ではなさそうだが1つの旨味が大きいものは、AIプロダクトである価値が大きい可能性が高い。

例えば、最近 Meta から米国・カナダ・英国限定で Ray-Ban Meta スマートグラスが発売された。この製品には視線カメラと着用者の音声が拾えるマイク、スピーカーが内蔵されている。着用者が今見ているものと同じ景色をカメラがリアルタイムに取得して内蔵AIに状況を把握させる。着用者の質問や指示を音声で受け取り、AIがカメラの映像をもとに質問や指示に答えてくれる。搭載されているマルチモーダルAIの精度の限界で直ちに万人に実用的であるとは言えないが、以下に述べるようなことも、1, 2世代後の製品では可能になるかもしれない。

  1. 観光中に見つけたお店の看板や外観を見て、スマートグラスにそのお店について尋ねると瞬時に食べログの評価や営業時間、予算などを教えてくれる。
  2. 授業を受けている際中に板書や教材の資料を見て質問すると、AIが着用者にテーラーメイドな回答をしてくれる。
  3. 毎日の出来事を日記にしたいけど、習慣づかない人向けに、着用しているだけで1日の終わりに勝手に日記を作成してくれる。これは、上記の "Reduce human effort" と(日記が習慣的に書けない人にとっての)"Enable what has been impossible" に当てはまる。

などなど。視線カメラとマイク、スピーカーを搭載したスマートグラスだけでも、幾つもの活用例が思い浮かぶ。

2024年はAIプロダクトのカンブリア大爆発が起こる年

2023年は誰もが使ってみたいAIを見つけて、すぐ使えるようになった年と言ったが、正直に言って既存の非AI技術で作られたプロダクトやサービスを置き換えようと思うものは少なかったように思う。もちろんtoBでは既に企業活動の一部で色んなAIが使われているが。

2024年は、これまでに登場した諸技術の精度向上、レイテンシの改善が進み、ついにAIを既存の機器と組み合わせた新たなプロダクトが登場してくるだろう。

例えば、2023年11月16日に米国で受注を開始した Ai Pin のような製品がある。

さて、AIプロダクトのカンブリア大爆発が起こるであろう来年のAIラップアップはどんな内容になるのだろうか。非常に楽しみだ。