📰 2024-W08

Feb 19, 2024 - Feb 26, 2024 · 83 stories

AI技术周报（2024-02-19 ~ 2024-02-26）

Gemini动态与开源模型成焦点

Gemma: New Open Models
Google发布开源大模型Gemma，为开发者提供轻量级、高性能基础模型，推动开源AI生态发展。
The killer app of Gemini Pro1.5 is using video as an input
Gemini Pro1.5支持视频输入的实用场景曝光，展现多模态模型在复杂任务中的应用潜力。
Stable Diffusion3
Stability AI推出Stable Diffusion3，文本一致性与图像质量显著提升，引领生成式视觉模型进步。
Google to pause Gemini image generation of people after issues
Google因历史人物图像生成偏差暂停相关功能，凸显AI伦理与准确性的行业挑战。
Phind-70B: Closing the code quality gap with GPT-4 Turbo while running4x faster
代码LLM性能突破，接近GPT-4 Turbo质量且速度快4倍，为开发者提供高效替代方案。

多模态LLM扩展动态输入能力
Gemini Pro1.5支持视频输入，表明多模态模型正从静态（文本/图像）向动态（视频）内容延伸，打开视频分析、故障诊断等新场景。
开源模型性能逼近闭源
Gemma、Phind-70B等开源模型在通用能力与代码任务上接近GPT-4 Turbo，降低中小企业与开发者的AI应用门槛。
高效能LLM成部署关键
Phind-70B、SDXL Lightning等模型强调速度与效率，毫秒级响应与低资源消耗成为AI落地的核心需求。

开源与闭源模型的竞争进入白热化阶段：Google通过Gemma切入开源市场，与Llama、Mistral形成三足鼎立之势，而闭源模型（如Gemini Pro1.5）则在多模态能力上持续领先。这种双轨策略将推动AI技术在不同场景的渗透——开源模型赋能长尾应用，闭源模型服务高端需求。

硬件层面，日本670亿美元芯片投资与ASML的行业地位凸显半导体对AI发展的支撑作用。Nvidia突破2万亿美元估值，进一步验证AI芯片是当前技术革命的核心基础设施。

Gemini、Gemma、Stable Diffusion3、Open Models、Local LLM、Multi-modal、Chip、AI Ethics

本报告由AI技术周报撰写专家整理，适合3分钟快速阅读。
所有链接均来自原始新闻源，点击可查看详情。