第9页 | AI博士Charlii - 探索更多精彩内容

火！这可能是最佳AI生成PPT方案【GPT/Claude/文心一言 + Gamma + Napkin AI】

在工作和学习中，PPT常常是展示思路和内容的关键工具。为了简化PPT的创建流程，提高质量和效率，推荐一个高效的AI生成PPT方案，结合大模型、Gamma和Napkin AI，提供从大纲构建到图文排版的全面支持。

Automation

随着技术的快速发展，Bolt 显示出颠覆性潜力。不仅可以让开发变得更简单，还可能在教育行业掀起一场降维打击。本文将探讨 Bolt 如何帮助教育行业实现更高效的内容可视化，从而改变教学方式。

LLM

Automation

这是一位15岁的CTO放在个人主页上的第一句话。他的开源项目ChatNio最近被百万收购。从零开始到获得七位数的收入，他只用了不到两年，期间还经历了中考，目前刚上高一。ChatNio是一款综合多种流行模型和服务的一站式平台，包括接入了OpenAI、Midjourney、Claude等众多知名模型服务。

Insights

MusicFX DJ 是一款生成式音乐工具，它的特别之处在于能够实时生成新的音乐。与传统DJ工具不同，MusicFX DJ并不是简单地混合现有音轨，而是基于用户的文本提示（prompt）来生成新曲风。用户可以输入不同风格的关键词，如“爵士”、“电子”或“放松”，系统会基于这些提示即时生成独特的音乐效果。

LLM

近期Genmo AI公司开源发布了最新的视频生成模型：Mochi 1 预览版。Mochi是一个开放的先进视频生成模型，具有高保真度的动作和强大的提示遵循能力。Mochi 1显著的缩小了开放视频生成模型与闭源模型之间的差距。并且以Apache 2.0开源许可发布，允许个人和企业的商业用途免费使用。当前在HuggingFace上已经开放了480p基础模型。Mochi 1 HD计划将在年底发布。另外，Genmo AI还宣布其完成了由NEA领投的2840万美元的A轮融资。

15分钟即可训练高质量、个性化的数字人！MimicTalk是由浙江大学与字节跳动联手研发的3D数字人生成项目，利用**神经辐射场（NeRF）**技术，实现了在15分钟内生成个性化、栩栩如生的3D说话人脸。与传统技术相比，MimicTalk的生成效率和表现力显著提升，生成的视频更加真实生动。

随着大模型在各行业中的广泛应用，AI Agent 作为一种基于大型语言模型（LLM）的智能体，已成为迈向人工通用智能（AGI）的一部分。与 LLM、RAG 不同，AI Agent 不仅具备 LLM 的推理能力，还可以通过调用工具执行任务，真正实现独立的智能交互。

Hunyuan3D-1.0 是腾讯推出的一款功能强大的3D生成模型，支持文本和图像输入，能够快速生成高质量的3D资产。Hunyuan3D-1.0 采用两阶段生成方法，首先通过多视角扩散模型生成多视角RGB图像，然后使用基于Transformer的稀疏视角大规模重建模型，将这些图像转换为3D模型。该模型有轻量版和标准版可选，轻量版适合快速建模，标准版则能生成更高质量的3D模型。

Digital-Human

Marketing

Ichigo 是一个开源的多模态 AI 语音助手，采用混合模态模型，能够实时处理语音和文本的交织序列。通过将语音直接量化为离散令牌，并采用统一的变换器架构同时处理语音和文本，Ichigo 实现了跨模态的联合推理和生成。该模型提高了处理速度和效率，延迟仅为 111 毫秒，显著优于现有模型，从而带来接近实时的语音交互体验。