プログラミング
今回のアップデートは、特にUI/UXの改善とIDEとの連携強化に重点が置かれており、開発者にとって非常に嬉しい内容となっています。
PCで使っているGemini CLIを、スマートフォンのAndroid環境でも使えないかと思い、Termuxを導入して試してみました。 今回は、その導入手順と、少しハマった日本語入力の方法についてまとめます。
第1回は、その第一歩として、なぜCI/CDが必要なのかに触れつつ、開発環境であるWSL上でDockerを使ってFastAPIとPostgreSQLのアプリケーションを立ち上げるところまでを解説します。
RAG (Retrieval-Augmented Generation) の最後のピース、**"G" すなわち「生成(Generation)」**のフェーズを実装します。検索してきた情報を元に、**LLM (大規模言語モデル)** がユーザーの質問に直接、かつ自然な言葉で回答を生成する部分です。この最終…
gpt-ossを触っていたところ、興味深い設定項目を見つけました。それが「推論強度(Reasoning level)」です。 今回はこの設定がモデルの回答にどのような影響を与えるのか、実際に試して比較してみました。
こんにちは、たねやつです。 今回は、様々なLLM(大規模言語モデル)を統一されたAPIで手軽に利用できるサービス「OpenRouter」を使って、無料で公開されているgpt-oss-20bを試す方法をご紹介します。 ローカル環境でLLMを動かすのは少しハードルが高いです…
こんにちは、たねやつです。 今回は、オープンソースモデルとして注目されるgpt-oss(パラメータ数20B)と、Googleの最新軽量モデルGemini 2.5 Flash(推定数百Bパラメータ)の実力を、6つの同じプロンプトを使って比較してみました。 これは、いわば軽量級…
こんにちは、たねやつです。 これまでのステップで、私たちは育児ログをきれいに整形し(前処理)、意味のある塊に分け(チャンキング)、AIが理解できる数値ベクトルに変換し(エンベディング)、そしてそれらを高速に検索できる知識の基地(ベクトルデータ…
こんにちは、たねやつです。 前回は、sentence-transformers を使って、育児ログの各チャンクを「意味を持つ数値の羅列(ベクトル)」に変換するエンベディングを行いました。これにより、私たちのデータは、AIが意味の近さで検索できる形式になりました。 …
今回は、このテキストから意味を抽出して数値のベクトルに変換する、**エンベディング(Embedding)** というプロセスを実装します。これは、AIが言葉の"意味"を理解するための、まさに魔法のような技術です。
こんにちは、たねやつです。 今回は、画像生成AI「qwen-image」をComfyUIで細かく試してみました。私が使用しているグラフィックボードはNVIDIA GeForce RTX 3060なのですが、どのくらい快適に動作するのか、設定を調整しながら処理時間や生成される画像の品…
RTX 3060 (VRAM 12GB) での`gpt-oss:20b`モデルの動作感を知ることができる
この記事では、ComfyUIでQwen-Imageを動かすための具体的な手順と、実際に試してみた結果をレポートします。
画像生成で非常によく使われるテクニック「Inpainting(インペインティング)」をComfyUIで実践する方法を解説します。
ここからはいよいよRAG (Retrieval-Augmented Generation) の世界に本格的に足を踏み入れていきます。RAGの最初の重要なステップは、知識源となる情報を、LLMが扱いやすい適切なサイズの「塊(チャンク)」に分割することです。これを**チャンキング**と呼び…
今回は、2025年現在、私がComfyUIをメインに使って行っているAI動画・音声生成のワークフローについて、備忘録も兼ねてまとめてみたいと思います。色々なツールを組み合わせて、かなり効率的に作業できるようになってきました。
今回は、データ分析の必須ライブラリである **Pandas** を使って、この生のデータをさらに洗練された形式に整える「データ前処理」を行います。AIにとって分かりやすく、栄養価の高い"食事"を用意してあげるようなイメージですね!
こんにちは、たねやつです。 今回はComfyUIの動画生成で利用できる、高品質な動画生成モデル「Wan 2.2」向けの素晴らしいプロンプト集がRedditで公開されていたのでご紹介します。動画生成のクオリティを向上させたい方は必見です! この記事でできること 事…
こんにちは、たねやつです。 今回は、ComfyUIとAnimateDiffの新しいモデル「Wan2.2」を使用して、一枚の画像から動画を生成する(Image to Video)際のコツや注意点についてまとめます。 この記事でできること 事前に必要なもの 画像から動画を生成する手順…
今回は、画像生成におけるもう一つの革命的な技術、「ControlNet」をComfyUIで利用する方法を解説します。
こんにちは、たねやつです。 Googleの次世代AIモデル「Gemini」に関する噂が、海外の掲示板Redditで話題となっています。今回は、「Gemini 3.0 Flash」のリリースに関する憶測やユーザーの反応をまとめてみました。 この記事でわかること 発端は一枚の画像か…
こんにちは、たねやつです。 前回の記事では、ぴよログからエクスポートしたテキストデータの構造を詳しく分析し、そこに隠されたルールを明らかにしました。 今回は、いよいよプログラミングのステップに進みます。前回明らかにしたルールを利用して、Pytho…
Wan2.2の5B版と14B版、両方のモデルを使って同じプロンプトから動画を生成し、その結果を比較・検証してみました。
こんにちは、たねやつです。 Google製のCLIツール「Gemini CLI」に新しいバージョンv0.1.16がリリースされました。 今回のアップデートでは、特にVSCodeやVimなどのIDE連携が大幅に強化されたほか、多くの新機能やUIの改善が含まれており、開発効率がさらに…
今回は、画像生成AIの世界で欠かせない技術となっている「LoRA」をComfyUIで使う方法を解説します。
こんにちは、たねやつです。 前回は、本連載で目指す「育児AIアシスタント」の概要と、その実現に利用するRAGという技術についてご紹介しました。 今回からはいよいよ実践編に入ります。AI開発の第一歩は、何よりもまず「データを知る」ことから始まります。…
今回は、ComfyUIのインストールから、最も基本的な「Text to Image(テキストから画像を生成する)」ワークフローを組んで、最初の1枚を生成するところまでを解説します。
こんにちは、たねやつです。 さて、我が家では赤ちゃんの毎日の記録を「ぴよログ」というアプリで付けています。授乳、睡眠、おむつ替えなど、あらゆる活動をタップ一つで記録できる非常に便利なアプリです。しかし、データが蓄積されてくると、「先週の平均…
こんにちは、たねやつです。 ローカルLLM環境のデファクトスタンダードとなりつつある「Ollama」から、ついに待望の公式GUIアプリが登場しました! これまでターミナル(黒い画面)での操作が基本だったOllamaが、より手軽に、より多くの人に使えるようにな…
この記事では、カスタムスラッシュコマンドの基本的な設定方法から、便利な活用例までを紹介します。