训练魔法-AI魔法学院

60.2K Star！别再熬夜写样式了！Screenshot-to-Code：截个图，代码全搞定！！

Screenshot-to-Code是一款将截图或设计稿快速转换为干净、可用代码的工具，支持多种技术栈，通过强大AI模型实现高效前端开发，节省时间，支持多次修改，适合前端开发者、初学者和创业团队，可通过Docker一键部署，提升开发效率。

Screenshot-to-Code 代码 2024-11-28

大模型

大模型狂飙两年后，“六小龙”开始做减法

“大模型六小龙”等国内AI明星公司在经历技术动荡后，聚焦成长速度和商业化速度，技术路径转向强化学习，商业化更聚焦自身优势领域，面临高估值下的融资压力和人才流动，分野已现，新竞争开始。

AI 大模型 2024-11-28

开源

阿里推理模型来了！Marco-o1 发布即开源

阿里巴巴发布全新开源推理模型Marco-o1，通过思维链微调、蒙特卡罗树搜索和反思机制等技术，解决开放性问题，展现强大实力，包括在翻译任务上的优秀表现，为AI社区带来新可能。

Marco-o1 推理模型 2024-11-27

工具

做自媒体消息闭塞很致命，巨好用的工具分享

文章总结了新媒体运营所需的多款工具和资源，包括热点查找、文案脚本辅助创作、违禁词查询、剪辑软件、编辑排版、设计作图、数据分析工具、导航网站、运营学习平台及书籍推荐等。

自媒体工具 2024-11-27

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

本文介绍了OuteTTS-0.1-350M这款新兴的文本转语音（TTS）模型，包括其技术原理、功能特性、应用场景及使用方法。该模型基于LLaMa架构，采用纯语言建模方式，具有零样本语音克隆、高效音频处理及广泛兼容性等特点，适用于智能语音助手、有声读物制作及内容本地化等领域。文章还提供了快速使用指南，帮助用户安装、初始化接口、生成语音及进行语音克隆。

OuteTTS-0.1-350M 音频 2024-11-26

RAG

必读！RAG好用的3种Router

PolyRouter是一个多LLM路由系统，它根据需求动态将查询路由到最合适的专家模型，优化性能、减少响应时间和成本，同时提高输出质量。系统提出了随机、kNN和BERT三种路由方案，并详细阐述了训练PolyRouter的三阶段过程，包括准备路由数据、训练路由器和路由器的应用。

RAG Router 2024-11-26

腾讯

深度体验3天后，我把腾讯这款copilot锁进了程序坞

腾讯推出AI智能工作台ima.copilot，集搜、读、写一体，拥有AI搜索、AI笔记、AI写作、文生图、AI收藏夹等功能，通过构建用户知识库提供定制化回答，界面简洁交互直接，能深入用户不同场景的使用痛点并给出解决方案，可大幅提升AI工具的效率和实用性，是互联网时代过渡到AI时代的一个典型产品。

copilot ima 知识库 2024-11-22

cursor+coze智能体，一行代码没写，我撸了个小程序

本文介绍了如何使用cursor和coze智能体快速开发一个明星吐槽微信小程序，包括软件安装、coze智能体实现后台功能、发布API、在cursor中编写指令生成代码并接入coze API，最终成功实现功能并优化代码。

cursor+coze 智能体 2024-11-21

RAG

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

国产大模型Qwen2.5系列新成员Qwen2.5-Turbo支持超长上下文，性价比高，能45秒总结《三体》主要内容，处理百万上下文时速度提升4.3倍，且价格便宜，引发网友热议。在多项长文本任务测试中表现优异，同时在短文本任务上也不逊色，Demo已上线HuggingFace和魔搭社区，API服务已上线阿里云。目前模型权重尚未开源。

Qwen2.5 开源模型 2024-11-21

OpenAI

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

传统的大模型Scaling Law已遇瓶颈，硅谷主要AI实验室陷入困境，训练成本高昂且效果提升有限。OpenAI等巨头正寻求新方法，如OpenAI的「测试时计算」技术和SSI的未知新方法，以突破当前限制。这些变化可能打破英伟达GPU在AI硬件市场的垄断地位，推动新一代GPU和推理芯片的发展。同时，AI领域正从大规模预训练转向推理阶段优化，OpenAI的o系列模型成为新焦点，可能标志着从GPT到推理模型的转变。

Scaling Law AI大模型 2024-11-18

大模型

大模型天才杨植麟，被朱啸虎“咬”了一口

“人红是非多”，明星大模型独角兽月之暗面又“摊上事”了。据暗涌报道，Kimi背后公司月之暗面的创始人&CEO杨植麟，以及联合创始人&CTO张宇韬，近日被循环智能时期的部分投资人在香港提起仲裁，相关电子仲裁申请书已递交HKIAC（香港国际仲裁中心）。

杨植麟大模型 2024-11-18

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

Fish Speech是Fish Audio开发的开源文本到语音（TTS）工具，支持多语言，通过70万小时数据训练实现高质量语音合成，具有低显存需求、快速推理、高自定义性等特性，包括零样本/小样本TTS、语音克隆、无音素依赖等能力。文章还介绍了Fish Speech的本地搭建方法，包括环境要求、安装步骤和推理实战，效果接近官网服务。

Fish Speech 本地搭建 2024-11-15

小度为何押注AI眼镜？

小度科技在2024世界大会上发布了全新AI眼镜，该眼镜内置AI，可语音问答、整理文档、翻译外文等，配备高像素广角摄像头、轻便续航强，软硬件全面优化，提供流畅交互体验。AI眼镜市场增长迅速，小度凭借AI原生、软硬一体优势入局，旨在让AI技术成为人类智慧生活的伙伴。

AI眼镜小度 2024-11-14

LLM

个人从零预训练1B LLM心路历程

项目于2024年3月启动，旨在从零开始训练一个名为“Steel-LLM”的中文大型语言模型，使用A100 GPU和T级别的开源中文（80%）及英文（20%）数据，模型参数量为1B。项目过程中遇到算力断供等问题，历时8个月完成，最终在ceval和cmmlu评估中取得良好表现。项目通过博客形式详细分享了训练过程中的数据收集与处理、代码改进、模型设计、微调探索与评估等细节。训练框架基于TinyLlama改进，使用FSDP进行分布式训练，对模型结构进行了soft MOE和SENet等修改。微调阶段使用了包括Infinity-Instruct在内的多份数据，并进行了刷榜测试。文章最后提到了项目的一些局限性和未来计划。

LLM 训练 2024-11-14

语音

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

GLM-4-Voice 9B是一款支持英语和中文实时语音交互的端到端模型，具备低延迟响应和可定制声音属性。文章介绍了其独特架构、设置步骤及在客户服务、教育等领域的应用潜力，强调其作为多语言对话AI工具的优势。

GLM-4-Voice 9B 语音安装 2024-11-13