👨💻 關於我
📚 部落格
🧠 企業顧問
🎓 Hugo課程
🤖 AI前沿
💻 程式語言
🐍 Python教學
文章列表
🌐 系統架構
💼 商業技術
標籤
🎬 影片筆記
文章搜索
多模態
GLM-4.5:智譜 AI 的次世代多模態基礎模型
LAVIS:Salesforce 的視覺語言 AI 函式庫
OmniGen2:進階開源多模態生成模型
OmniParse:適用於 GenAI 管線的開源通用資料解析工具
InternVL:擴展至 241B 參數的開源視覺語言模型系列
Qwen2.5-Omni:阿里巴巴的端到端多模態 AI 模型
LLaMA-VID:一張圖片僅需 2 個 Token——實現 LLM 高效長影片理解
MLX-VLM:在 Apple Silicon 上執行視覺語言模型推論與微調
Pixelle-MCP:透過 MCP 橋接 ComfyUI 與 LLM 的開源多模態 AIGC 解決方案
Seed1.5-VL:字節跳動的視覺語言基礎模型,在 38 項基準測試中達到 SOTA
訂閱我們的電子報
×
掌握最新趨勢和獨家內容,直接發送到您的收件匣!
訂閱