概要
https://constanttime.notion.site/Worlds-first-Ai-generated-font-using-nano-banana-2ba6f8e15af18012864bdb760fa9c9ba
詳細内容
## 世界初のAI生成フォント:Soraによるタイポグラフィ実験
https://constanttime.notion.site/Worlds-first-Ai-generated-font-using-nano-banana-2ba6f8e15af18012864bdb760fa9c9ba
**Original Title**: Worlds first Ai generated font, using nano banana.
Soraを使って世界初のAI生成フォントを作成する実験的プロジェクトで、LLMの限界を認識した後に拡散モデルへ移行し、グリフ生成からTTFファイル作成まで実現しました。
**Content Type**: Experiments & Research
**Language**: en
**Scores**: Signal:4/5 | Depth:4/5 | Unique:5/5 | Practical:3/5 | Anti-Hype:4/5
**Main Journal**: 72/100 | **Annex Potential**: 83/100 | **Overall**: 62/100
**Topics**: [[AI画像生成, タイポグラフィ, 拡散モデル, フォント生成, Sora]]
### プロジェクトの背景
**2019年の原体験**
著者はシンガポールA*Starでの研究フェローシップ時代に、MNISTデータセットとGAN(敵対的生成ネットワーク)を使って合成エンジンデータを作る類似実験を行っていました。当時は学部2年生で「何をしているのか分かっていなかった」と振り返ります。
**2025年の再挑戦**
5年後、LLMの時代にフォント生成に再挑戦しました。
### LLMでの試行と限界
**グリフテーブル操作の失敗**
フォントは「グリフ」と呼ばれる文字の集合で構成されています。グリフは点(ポイント)とそれらを結ぶ方向のデータで表現されます。
著者はLLMにグリフテーブルを見せて操作を依頼しました:
- プロンプト:「この文字をもっとイタリック体にして」
- 結果:「まあ、できた。一応」
**発見した本質的問題**
LLMは視覚的な形にレンダリングされる値を変更するのが苦手です。これはManim + LLMの実験で友人が直面した問題と同じでした。
**Grant Sandersonの洞察**
Manimの創設者であるGrant Sandersonは次のように述べています:
> プログラマティックアニメーションの価値は、すべてをテキストで行えることです。マルチモーダルやビデオ生成の拡散モデルは不要です。しかしそれが限界でもあります。このように制約されると、目の見えない人がキャンバスに絵を描くようなものです。
著者はこれを「描いたものが見えないまま、盲目の人がベクターを操作している」ような状態だと感じました。
### 拡散モデルへの転換
**GANの後継者**
著者は愛着のあったGANの後継技術である拡散モデルに移行しました。
**即座の成功**
結果は劇的でした。最初の試行で成功しました。白背景の「O」を生成するよう依頼すると、期待通りの結果が得られました。
### フォント作成プロセス
**SVG変換**
生成された画像をSVGに変換するプロセスはスムーズに進みました。
**TTF生成の課題**
26文字を生成してTTF(TrueType Font)ファイルに変換しようとしたところ、複数の問題が発覚しました:
1. **高さの不統一**: 文字が同じ高さに揃っていない
2. **逆転した文字**: 一部の文字が反転していた
3. **正規化の問題**: TTFやOTFファイルにするには正規化が必要
### タイポグラフィの制約導入
**グリッドガイドラインの使用**
著者はPythonでグリッドを作成し、以下の要素を含めました:
- Ascender(アセンダー:上部突出部)
- Descender(ディセンダー:下部突出部)
- X-height(x-ハイト:小文字の高さ)
- Baseline(ベースライン:基準線)
**部分的な成功と限界**
文字「a」をベースラインとx-heightの間に収めるよう明確に指示しましたが、うまくいきませんでした。著者は、Soraの訓練データが「Hと比較して非常に小さいa」を作ることに確信を持てなかったのではないかと推測しています。
**ハイブリッドアプローチ**
LLMに歩み寄ることを決断しました。トレースした文字のコレクションを与えて参照として使用させたところ、「魔法のように」うまくいきました。
### 技術的実装
**文字の抽出**
- マーカーを追加
- Pythonで切り出し
- 60個の文字を取得
- Pillowライブラリを活用
**正規化の課題**
TTFやOTFファイルに変換するには正規化が必要ですが、これが新たな課題となりました。ベースラインがほぼ同じであるために、一部の文字が「親指のように突出して」見えてしまいます。
### ビジョンと今後の展開
**フォントの民主化**
著者は「誰もが自分のフォントを作る力を持つ」世界を望んでいます。
**実用例の想像**
すべてのSubstackオーナーが、自分の文章のエッセンスを強調するために独自のフォントを作れる未来を想像しています。
**Robert Bringhustの引用**
> タイポグラファーは、音楽家が演奏する音楽の内なる秩序を明らかにするように、テキストの内なる秩序を分析し明らかにしなければならない。
**商業的文脈**
著者の友人の会社は、1文字あたり2,000ドルを請求されたことがあるそうです。
### 成果物
プロジェクトの成果として「CandleLettersTTF.ttf」(15.2 KiB)が作成されました。
### 評価のポイント
**技術的洞察:**
- LLMは座標データのような「視覚にレンダリングされる値」の操作が苦手
- 拡散モデルは視覚的タスクに適している
- ハイブリッドアプローチ(参照画像 + AI生成)が効果的
**未解決の課題:**
- 正規化処理の改善が必要
- 文字の高さの一貫性
- より多くの時間と反復が必要
**実験の価値:**
- 週次スプリントプロジェクトとして実施
- フォント生成の民主化への第一歩
- AI時代のタイポグラフィの可能性を示唆
### なぜ注目すべきか
このプロジェクトは、AI画像生成技術(Sora/拡散モデル)が従来は高度な専門知識が必要だったタイポグラフィ分野に革命をもたらす可能性を示しています。LLMの限界を認識し、適切なツール(拡散モデル)を選択した判断力と、タイポグラフィの専門的制約(ascender、descender、x-height)をAI生成プロセスに組み込んだ実装は、AIツール活用の実践的な教訓となります。「1文字2,000ドル」という現実のコストに対し、15.2KiBのフォントファイルを生成できた点は、クリエイティブツールの民主化における大きな一歩です。