AIの一覧

2024年6月5日2024年7月15日

avatar

いろんなAIを紹介するね。

本サイトで利用しているAIをご紹介致します。

ディープラーニングを用いたAI

【Google】Generative Language API(Gemini API)

GoogleのGenerative Language API（ジェミニAPI）は、Googleが提供する人工知能（AI）ベースの自然言語生成APIです。このAPIは、Geminiモデルと呼ばれる強力なモデルを使用して、テキスト生成、対話、要約、翻訳などのタスクを実行します。Geminiモデルは、言語、画像、音声、ビデオ、コードなど、さまざまな種類の情報を統合的かつ効果的に処理できるように設計されています。

主な機能としては、次のようなものがあります。

テキスト生成
入力されたテキストに基づいて自然な文章を生成します。例えば、物語の続き、ブログ記事、詩などを生成できます。
対話型応答
ユーザーの質問やコメントに対して、自然な対話を行うための応答を生成します。チャットボットやバーチャルアシスタントの開発に活用できます。
要約
長い文章やドキュメントを要約し、重要なポイントを抽出します。ニュース記事やレポートの要約に役立ちます。
翻訳
文章や文書を他の言語に翻訳します。多言語環境でのコミュニケーションを支援します。

当サイトの利用箇所

アム君、イムちゃんの会話の生成に利用しています。

【Google】Generative Language API(Gemini API)

Chat GPTは、OpenAIが2022年11月に公開した大規模言語モデルのチャットボットです。会話型AIやチャットボット、文章生成、画像生成など様々な用途に利用できます。

主な機能としては、次のようなものがあります。

会話: 自然言語による会話が可能で、質問に答えたり、指示に従ったり、雑談をしたりすることができます。
文章生成: 詩、コード、台本、音楽作品、メール、手紙など、様々な形式の文章を生成することができます。
翻訳: 言語間の翻訳が可能で、100以上の言語に対応しています。
情報検索: インターネット上の情報を検索し、質問に答えることができます。
その他: 画像生成、音声生成、要約、コード生成など、様々な機能を提供しています。

当サイトの利用箇所

記事の画像の生成に利用しています。
当初はMicrosoftのImage Creatorを使用していましたが、Image CreatorのライセンスはWeb公開NGでしたので、現在は商業利用可能なChat GPTのAPIを利用して画像生成しています。

Stable Diffusion Web

Stable Diffusion Webは、オープンソースの画像生成サービスです。Stable DiffusionはStability AIによって開発された強力な拡散モデルで、テキストから高品質な画像を生成出来ます。

主な機能としては、次のようなものがあります。

テキストから画像を生成
単語や文章を入力することで、AIがそのイメージに合った画像を生成します。
テンプレート
あらかじめ用意されたテンプレートを利用して、簡単に画像を作成することができます。

当サイトの利用箇所

記事の画像に利用

【Microsoft】Image Creator(Copilotデザイナー)

Copilotデザイナーは、マイクロソフトが提供する、AIを活用した画像生成ツールです。
Copilotデザイナーは、ユーザーがDALL-E3を使用して AI 画像を生成するのに役立つ製品です。テキストプロンプトが指定されると、そのプロンプトに一致する一連の画像が AI によって生成されます。

主な機能としては、次のようなものがあります。

テキストから画像を生成
単語や文章を入力することで、AIがそのイメージに合った画像を生成します。
画像編集
生成された画像に対して、色や構図などを調整することができます。
テンプレート
あらかじめ用意されたテンプレートを利用して、簡単に画像を作成することができます。

当サイトの利用箇所

なし（ライセンスがオンライン公開不可のため）
※ 以前、一部の記事で使用していました。現在、削除対応していますが削除漏れがあるかもしれません。残っていた場合は削除します。

古典的な技術を用いたAI

OpenJTalk

OpenJTalk（オープンジェイトーク）は、日本の研究機関である情報通信研究機構（NICT）が開発した、日本語の音声合成エンジンです。音声合成のための伝統的な手法であるHMM（Hidden Markov Model）をベースにした、日本語のテキストを音声に変換するためのオープンソースのソフトウェアです。

OpenJTalkは、次のような特徴を持っています。

オープンソース
OpenJTalkはオープンソースプロジェクトであり、誰でも無料で利用することができます。また、ソースコードも公開されているため、開発者がカスタマイズや改善を行うことが可能です。
高品質な音声合成
OpenJTalkは、音声合成の品質が比較的高いとされています。自然な発音や抑揚の付いた音声を生成することができます。
多機能
OpenJTalkは、さまざまな設定やオプションをサポートしています。音声の高さや速度、音声品質などを調整することができます。
日本語対応
OpenJTalkは、日本語の音声合成に特化しています。日本語のテキストを自然な音声に変換することができます。

当サイトの利用箇所

OpenJalkを利用したWebページベースのテキスト朗読ツールJTalkを開発し本サイトで公開しています。

MaryTTS（Mary Text-to-Speech）

MaryTTS（Mary Text-to-Speech）は、オープンソースのテキスト読み上げソフトウェアです。HMM（Hidden Markov Model）やFestival Speech Synthesis Systemなどの伝統的な音声合成アルゴリズムをベースにした、テキストを自然な音声に変換するためのエンジンを提供します。MaryTTSは、Javaベースで開発されており、さまざまなプラットフォームで利用できます。

MaryTTSの主な特徴は次のとおりです。

多言語サポート: MaryTTSは、多くの言語に対応しており、さまざまな言語でテキストを音声に変換することができます。日本語、英語、ドイツ語、フランス語など、さまざまな言語に対応しています。
自然な音声合成: MaryTTSは、自然な音声を生成することができます。リアルな発音や抑揚を持った音声を提供します。
カスタマイズ可能: MaryTTSは、音声合成のパラメータを調整することができます。音声の速度やピッチ、音量などをカスタマイズすることが可能です。
オープンソース: MaryTTSはオープンソースソフトウェアであり、誰でも自由に利用、変更、配布することができます。これにより、開発者やコミュニティがソフトウェアの改善やカスタマイズを行うことができます。

当サイトの利用箇所

MaryTTSを利用したWebページベースの英語テキスト朗読ツールMaryTTSを開発し本サイトで公開しています。