文章列表-AI魔法学院

文章列表

一文彻底搞懂多模态 - 多模态推理

本文总结了多模态推理的概念，涉及视觉和语言等至少两种感知模态的信息融合，旨在获取更全面准确的理解和知识，支持视觉问答、视觉常识推理、视觉语言导航等任务。文章进一步介绍了知识图谱推理及其方法，包括基于规则学习、路径排序、表示学习和神经网络学习。最后，文章阐述了多模态推理任务的具体应用，包括视觉问答、视觉常识推理和视觉语言导航。

多模态推理大模型 2024-11-07

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

本文展示了5款爆火的开源TTS语音克隆项目（Fish、F5、GPT-SoVITS、CosyVoice、MaskGCT）的效果，包括模型介绍、实战部署代码及效果展示案例，并提醒使用时需遵守项目要求和法律法规。

语音克隆开源模型 2024-11-06

AI+大模型在金融行业的应用场景

AI技术广泛赋能金融行业，包括营销、资管、风控等，提升交易效率和安全性。在银行、保险、证券行业中，AI应用各具特色，如银行的信用风险评估、保险的个性化产品和自动化理赔、证券的智能交易和智能投顾。但AI应用也面临数据偏差、隐私保护、算法透明度等风险和挑战。

AI大模型金融 2024-11-06

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

本文总结了最近一周关于大模型(LLMs)的10篇最新研究进展，涉及多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门领域。具体包括：多模态RAG系统研究，旨在找到最佳配置以提升性能；推理时对齐方法，提出Speculative Rejection算法提高计算效率；新型扩散模型架构OmniGen，支持多种图像生成任务且用户友好；多模态语言模型BLIP-3-Video，有效捕捉视频帧时间信息；多语言多模态大模型Pangea，覆盖39种语言并在多文化和语言背景下表现优异；上下文Scaling Laws研究，解释了为何示例越多模型预测越准确；RAG推理加速方法Block-Attention，显著降低推理延迟和计算开销；可拓展Agent平台AgentStore，集成不同代理以自动化计算机任务；LLM PEFT技术全面介绍，提供了高效的针对预训练模型的下游任务适配手段。

大模型研究 2024-11-04

投资人逃离大模型

人工智能浪潮的掀起，世界正迎来一场前所未有的技术革命。从20世纪50年代开始人工智能技术诞生至今，已经先后四次引起大规模的关注。而如今正处在第四次的大模型时代，前三次分别为专家系统时代、机器学习时代和深度学习时代。后世之人如果要回顾这次的大模型时代，ChatGPT一定是一个绕不开的名字。2022年时，Open AI研发的ChatGPT-3.5横空出世，技惊四座，无论是写代码论文还是写诗作画，吹拉弹唱样样精通。

大模型 2024-11-01

字节，悄咪咪做了个 Liblib

「LiblibAI」一年内完成三轮数亿元融资，成为知名AI模型社区产品。字节推出类似AI模型分享社区「炉米Lumi」，目前为白名单版本，提供模型分享、Workflow搭建等服务。字节今年已推出二十余款AI产品，内部开启新一轮赛马机制，期待「炉米Lumi」早日公测。

Lumi 大模型 2024-11-01

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

字节跳动推出AI模型PersonaTalk，可精准同步视频配音与人物口型，保留个性特征，快速适配多场景，通过双重注意力机制实现细节之美，远超同类模型，但限制在科研机构使用，为视频创作带来便利和可能性。

PersonaTalk 视频 2024-10-31

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

香港中文大学（深圳）与趣丸科技推出新一代大规模声音克隆TTS模型MaskGCT，该模型在10万小时多语言数据上训练，无需文本与语音对齐监督和音素级持续时间预测，展现出超自然语音克隆、风格迁移及跨语种生成能力。MaskGCT由四个主要组件构成，通过两阶段预测实现高质量文本到语音合成，在多个基准数据集上达到SOTA效果，并具备丰富的应用场景，如短剧出海、数字人等。相关项目已在开源系统Amphion发布，并推出“趣丸千音”平台加速应用落地。

MaskGCT 声音克隆 2024-10-31

鹅厂版AI笔记悄悄上线，微信公众号优质内容秒变专属知识库，实测在此

ima copilot是腾讯推出的AI助手，能搜索微信公众号文章并一键加入专属知识库，支持AI检索总结、笔记功能及多模态搜索。用户可建立个人知识库并利用AI扩写、润色、翻译等功能记笔记。此外，AI笔记应用正逐渐受到关注，谷歌NotebookLM和Meta的NotebookLlama等项目也在该领域展开竞争。

ima copilot 搜索 2024-10-30

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

名为“red_panda”的神秘文生图模型在竞技场迅速走红，其ELO得分远超其他顶尖模型，生成图像速度快且质量高，引发广泛猜测其来源，包括可能是Midjourney V7、OpenAI的DALL-E 4、Mistral AI的新模型或中国厂商的作品等。经过实测，red_panda表现强劲但并非压倒性胜利。其真实身份仍未知，网友和专家纷纷提出各种猜测，同时期待更多样本和官方认领。

red_panda 文生图 2024-10-30

独家！黄太吉创始人再创业：首次披露惨败内幕

赫畅31岁创办餐饮品牌黄太吉，利用移动互联网营销成为网红餐厅，后转型外卖平台，获1.8亿融资但终因战略失误破产。他通过研读《毛选》反思失败，并开设《毛选创业课》帮助其他创业者。同时，童话作家郑渊洁对其人生也有深刻影响，让他选择初中辍学学习技能。赫畅认为中国创业者应基于国情发展，学习《毛选》有助于找到新的理论基础。

黄太吉创业 2024-10-29

LlamaIndex的QueryPipeline在实现RAG应用后，Agent应用也可以实现了（附开发示例）

文章总结：文章介绍了LlamaIndex推出的新实验功能QueryPipeline，支持通过声明式方式定义个性化应用流程，并给出了RAG类应用及ReAct Agent的实现案例。文章以Text2SQL的ReAct Agent为例，详细阐述了构建过程，包括数据导入、安装可观测性工具、构建Text2SQL工具、构建ReAct Agent Pipeline等步骤。文章还提到，当前该特性仍处于研发预览状态，存在限制，未来有待改进以实现复杂的Agent应用模式及Agent与RAG混排。

Agent QueryPipeline 大模型 2024-10-29

技术爆炸！AI一图换脸新王者，Instant ID保姆级安装与使用测评

文章介绍了SD中最新的人物换脸技术Instant ID，它能通过一张图片实现完美换脸，保真度高且文本可编辑性强。可用于广告、艺术照和视频换脸。文章还详细阐述了Instant ID的一键部署启动方法、使用方法以及在不同风格下的生图测试效果，指出其优点为人物相似度高，但需使用sdxl模型，对电脑配置有要求，且模型选择和图片选择影响图片质量。

Instant ID 文生图 2024-10-28

了解Kimi必看的26个问题 | Kimi系列文（二）

本文是《Kimi使用，从入门到精通》系列文章的第二篇，系统介绍了Kimi这一国产文本AI助手，包括其定义、开发公司、定位、水平、用户群体、功能、与搜索引擎的区别、使用方式、费用、限制、输出内容、历史会话管理、分享功能、会话切换、常用语调用、高质量回答获取、语音支持、数据隐私、个人及企业使用建议等。

Kimi 大语言模型 2024-10-28

Stable Diffusion

Stable Diffusion基础：ControlNet之身份标识

本文介绍了一个新的ControlNet类型Instant ID，由小红书团队开发，可提取人的面部信息并在生成图片中使用，效果优于Lora模型和换脸模型Roop。Instant ID通过IP-Adapter技术和交叉注意力机制影响人脸生成，使用方法包括独立使用和集成到Stable Diffusion WebUI中。文章提供了在线体验链接、安装教程和模型下载地址，并介绍了在WebUI中使用Instant ID的步骤和注意事项。

ControlNet 文生图 2024-10-25

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1