投稿

5月, 2023の投稿を表示しています

画像生成AI Stable Diffusionを使って画像出力する。その3 自分好みの女の子を作成しよう

今回で、3回目になります。ただの風景画像を生成しても面白みがないので自分の癖にくる女の子の画像を自分で作っていきましょう。 具体的な画像出力方法は、以前書いた その1 を参考にしてください。 また、今回は基本的なコードの解説は行わない予定です。 その2 を参考にしてください。 今回は、実際に出力に関わるところのコードのみを取り扱おうと思います。 いきなりですが、実際に使用したコードを載せます。 prompt = """ (((girl))), ((sky)), (short hair), (gray hair), arrange one's hair, illustration, Night view, Marble floor, documents, files, ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), ((((illustration)))), lens flare, film Reflection, colorful refraction, light diffusion, cute, chair, interview, Unreal Engine, Realistic,photorealisti

画像生成AI Stable Diffusionを使って画像出力する。その2  コード解説編

画像生成AI Stable Diffusionを使って画像出力する。その1 で、使用したコードの解説です。まだ、上の記事を見ていない場合は先に見てください。 from diffusers import StableDiffusionPipeline , DPMSolverMultistepScheduler import torch from diffusers import StableDiffusionPipeline # 利用したいAIモデル # Stable Diffusionにはさまざまな派生モデルがあります model_id = "gsdf/Counterfeit-V2.5" # パイプラインの作成 pipeline = StableDiffusionPipeline.from_pretrained ( model_id , torch_dtype=torch.float16 ) # GPUを使うように変更 pipeline = pipeline.to ( "cuda" ) このコードは、Stable Diffusionと呼ばれる派生モデルを使用して、画像の生成や修復などのタスクを行うためのパイプラインを作成するためのものです。Stable Diffusionは、画像生成や修復において高品質な結果を提供するためのモデルです。 上記のコードでは、diffusersというモジュールから StableDiffusionPipelineとDPMSolverMultistepSchedulerというクラスをインポートしています。 torchモジュールもインポートされています。 import torchについて 画像生成のときの計算の精度をfloat32からfloat16に落とすことで、画像生成の速度を高速にすることができる。公式も使用を推奨している方法で、実際に生成した画像を見比べたときに大きな差がないです。 使い方 パイプラインの作成に torch_dtype=torch.float16 を追加する。 次に、利用したいAIモデルの識別子をmodel_idに指定します。この例では、"gsdf/Counterfeit-V2.5"というモデルを使用しますが、実際には他の派生モデルを選択するこ

Stable Diffusionで出力したイラスト集

イメージ
 

画像生成AI Stable Diffusionを使って画像出力する。その1

イメージ
今回の目標:取り敢えず画像を出力できるようになる。 Google Colab にアクセスする。 新規ノートを作成する。 右上の「接続」をクリック。接続されたら、 左上の「編集」内の「ノートブックの設定」を選択 ハードウェア アクセレータの項目をGPUに設定し「T4」に設定。保存を押す。 #有料ではあるが、 より高性能なGPUも選択できる。 すると、接続が一旦切れるので、再接続するのを確認する。 再生マークが実行、その隣にコードを打ち込む。     !nvidia-smi  実行して、GPUが使用されるようになっているか確認する。実行出来たら◯ 右上の「+コード」をクリックして新しい欄を追加。以下を記述。     !pip install --upgrade diffusers accelerate transformers 実行。 右上の「+コード」をクリックして新しい欄を追加。以下を記述。 from diffusers import StableDiffusionPipeline , DPMSolverMultistepScheduler import torch from diffusers import StableDiffusionPipeline # 利用したいAIモデル # Stable Diffusionにはさまざまな派生モデルがあります model_id = "gsdf/Counterfeit-V2.5" # パイプラインの作成 pipeline = StableDiffusionPipeline.from_pretrained ( model_id , torch_dtype=torch.float16 ) # GPUを使うように変更 pipeline = pipeline.to ( "cuda" ) 実行。 右上の「+コード」をクリックして新しい欄を追加。以下を記述。 prompt = """Unreal Engine, Realistic,photorealistic, 4k,8k,16k, elaborate, hyper quality, villa, glo

shanling UP5 製品レビュー

イメージ
shanlingといえば、M3xがエントリーモデルのDAPが有名だと思われますが、同じdacチップ(ESS Sabre ES9219C x2)を搭載したBTレシーバー shanling UP5を購入したので製品レビューします。 shanling UP5  製品ページ ボディ サイズ 68 x 39 x 14.5 mm 重量 50g スペック DACチップ ESS Sabre ES9219C x2 出力端子 3.5mmシングルエンド出力 4.4mmバランス出力 2.5mmバランス出力 Bluetoothチップ Qualcomm QCC5120 Bluetoothバージョン Ver 5.0 対応Bluetoothコーデック LDAC/LHDC(HWA)/aptX HD aptX LL/aptX/AAC/SBC 最大出力レベル 90 mW@32Ω (シングルエンド-シングルDAC) 112 mW@32Ω(シングルエンド-デュアルDAC) 240 mW@32Ω(バランス) バッテリー容量 680mAh 付属品 USB Type-C to Cケーブル USB-A to Cアダプタ 専用レザーケース 保証書 クイックスタートガイド 本体外観 ケースを付けています。がっちりホールドされているので、すっぽ抜けることはなさそうです。 音質について イヤホンは、se846で聴きました。アンバランス、バランス順番にレビューします。 アンバランス接続 少し、低音域の量感が多いですがボーカルが埋もれていないので聴きやすい音です。大人しめにチューニングされており、リスニングとモニターの中間に位置する感じです。ボーカルと楽器の距離が近い感じの鳴り方をして、密度感が高い印象を受けました。ノイズはかなり少ないのか、全く聞こえません。 バランス接続 アンバランス時に比べ、低音域の量感は減りフラットな印象を受けました。空間が広がり、音の密度感は薄れましたが、見晴らしがいい音です。高音域が少し刺さる気がしました。ノイズが、アンバランス時よりも増えましたがそれでも気にならないほどで技術力に驚きました。 総評 ノイズが少なく、M3Xと同じ音がします。 艶のある音、濃厚な音を聴きたい時は、アンバランス 音場が広く、開放的な音を聴きたい時は、バランス での使用をお勧めします。

OpenAIの「Whisper」を使って文字起こしする方法

イメージ
とりあえず、 googlecolab に移動する 画像のノートブックを新規作成をクリック こんな感じの画面になるので、再生ボタンの横の欄に     !pip install git+https://github.com/openai/whisper.git を打ち込み再生ボタンをおして実行する。 実行が終わったら、画面左上のコードを追加するボタンを押し、さっきと同様に     import whisper と打ち込み実行。 ファイルアイコンをクリックして、contentフォルダを探し右クリック。 アップロードがメニューにあるので、変換したいファイルを選択する。 アップロードが終わったら、     model = whisper.load_model("large")      result = model.transcribe("2023.mp3")     print(result["text"]) 上記のコードを追加し、実行する。 品質は、largeと書いてあるところをいじれば良い。以下を参考にして調整する。 ファイルは2023.mp3のところを適当な値にする。Whisper自体に、FFmpegがあるらしいので、試してはいないが動画ファイルもいけると思う。

ChatGPTに自分のお気持ち表明させてみた

ブログって何を書けばいいのだろうか…。最近、ネタに悩んでいる感じだ。何か新しいアイデアがほしいな。毎日同じことを書いてもつまらないし、読者も飽きてしまうだろうし。でも、自分の興味や知識に基づいた記事を書くのも難しい。どんな情報が人々にとって役に立つのか、分からなくなってしまった。他の人たちはどうやってネタを見つけているのだろう?インスピレーションを得る方法はあるのかな?時々、他のブロガーの記事を読んでみるけれど、自分にはなかなか応用できないような内容ばかりだし、自分の個性を出すのも難しい気がする。もしかしたら、もっと身近なテーマにフォーカスするのがいいのかもしれない。自分の日常生活や趣味、経験に関連することを書いてみるといいだろう。そうすれば、自然と自分らしさが出せるかもしれないし、読者も共感してくれるかもしれない。とにかく、ネタに困っている時は、リラックスして自分の中にあるアイデアを探してみることにしよう。何気ない日常の中にも、書きたいネタが潜んでいるはずだから。気負いすぎず、自分自身を信じて、ブログの魅力を引き出せるように頑張ってみよう。 ということで、良いネタがあればコメントしてくれ!!!

zsh基本コマンド

Zshとは、UnixやUnix系のオペレーティングシステムで利用される便利なコマンドラインシェルです。Bourneシェル(sh)の拡張版であり、機能豊富でカスタマイズ性が高い特徴を持っています。Zshを利用することで、コマンドの補完やワイルドカード展開、履歴の管理など、さまざまな便利な機能が利用できます。これにより、作業効率が向上し、手間を省くことができます。また、Zshは非常に柔軟なカスタマイズが可能です。プロンプトの見た目や動作、キーバインディングなどを自分の好みに合わせて自由に設定することができます。これにより、個性的なプロンプトで作業を行ったり、キーバインディングを使いやすく調整したりすることができます。多くのLinuxディストリビューションやmacOSでは、デフォルトのログインシェルとしてZshが選択されています。これは、Zshが高い信頼性と使いやすさを持っているからです。 ls:  ディレクトリ内のファイルとディレクトリの一覧を表示します。 例: ls -l(詳細情報を含めて一覧表示)、ls -a(隠しファイルも含めて一覧表示) cd:  ディレクトリを変更します。 例: cd Documents("Documents"ディレクトリに移動) mkdir:  新しいディレクトリを作成します。 例: mkdir mydir("mydir"という名前のディレクトリを作成) touch:  新しいファイルを作成します。 例: touch myfile.txt("myfile.txt"という名前のファイルを作成) cp:  ファイルやディレクトリをコピーします。 例: cp file1.txt file2.txt("file1.txt"を"file2.txt"にコピー) mv:  ファイルやディレクトリを移動または名前変更します。 例: mv file1.txt newdir/("file1.txt"を"newdir"ディレクトリに移動) rm:  ファイルやディレクトリを削除します。 例: rm file.txt("file.txt"を削除)、rm -r directory/("director

FFmpegで画像のピクセルサイズを指定して、変換する方法 忘備録

きっかけ chrome拡張機能作成時に、アイコンの画像データが必要になった。 やり方      ffmpeg -i input.png -vf "scale=128:128" output.png 引数の説明 -i input.png:  入力ファイルを指定します。input.png は変換元の画像ファイルです。この部分を変換元の画像ファイルのパスに置き換えてください。 -vf "scale=128:128":  ビデオフィルタを指定します。この場合、スケールフィルタを使用して画像のサイズを変更します。128:128 は変換後の画像の幅と高さをピクセル単位で指定しています。ここでは、画像を128x128にリサイズしています。 output.png:  出力ファイルのファイル名を指定します。変換後の画像が output.png というファイル名で保存されます。この部分を任意のファイル名に置き換えることができます。

shure_se846レビュー

イメージ
  公式サイト 製品詳細 4つの高性能baドライバーが各音域を担当しています。本機の最大の特徴である低域は、画期的なローパスフィルターによりサブウーファーのような情報量の多い低音が得られます。 交換式ノズルインサートでより好みのサウンドにチューニングが可能。用途、好みに合わせて自由自在にサウンドシグネチャーをカスタマイズできます。 エクステンド(初期設定ノズル)、バランス、ウォーム、ブライトの4つの独自のサウンドシグネチャーをカスタマイズできます。 エクステンドノズル(初期設定ノズル)は、ステレオイメージと明瞭度を高め、さらなる「空気感」を加えます。 バランスノズルは明瞭度とディテールを高め、ウォームノズルは低音の存在感を高め、ブライトノズルは明るく高音域を際立たせます。 附属品 3.5mmステレオミニプラグケーブル ソフトフォーム・イヤパッド(S/M/L) ソフト・フレックス・イヤパッド(S/M/L) イエローフォーム・イヤパッド トリプルフランジ・イヤパッド 6.3mm変換アダプター ノズル交換ツール 交換用ノズルインサート ハードキャリングケース Comply製ソフトフォームイヤパッド(XS) Comply製P-Seriesソフト・フレックス・スリーブ(S/M/L) ノズルはバランス、ケーブルは、 NOBUNAGA Labs INSPIRE篠波 を使用。 プレーヤーは、A&futura SE100とshanling up5で聴きました。 イヤーピースは、radius ディープマウント使用です。 簡単な感想。 各音域の繋がりについての懸念がありましたが、ダイナミックドライバー、一発ほどではないですが自然な音の鳴り方をしていると思います。本機のアイデンティティとも言える、ローパスフィルターのおかげか低音域の描写は得意なような気がします。ただ、ダイナミック機に多い広がるような低音ではなく、キック感の強い低音なので空間が狭く感じます。引き換えなのか、音の定位感はかなり良いです。 以前アンバランス接続の方が、音としては好みであるというツイートをしましたが、エージングが進んだためか今は、バランス接続の方が良いようなきがします。当環境では、バランス接続の方がノイズが多く発生しているのでノイズが気になる人はアンバランスでの接続をお勧めします。 また、ブライトノズルを使