文章列表-AI魔法学院

文章列表

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

在当今数字化与智能化浪潮汹涌的时代，人工智能技术不断取得突破性进展，多模态模型作为其中的前沿领域，正日益成为研究和应用的热点。

OmniVision -968M 多模态模型

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

•技术细节写得比较泛（防止别人模仿）大概就是用视觉块编码（visual patch）的方式，把不同格式的视频统一编码成了用transformer架构能够训练的embeding，然后引入类似diffusion

sora openai 视频生成

四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法

当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。

大模型

6个最佳开源TTS引擎

随着人工智能的普及以及数字设备应用的增加，相关系统对语音识别以及文语转换技术日益依赖，TTS正在变得越来越重要。

TTS引擎开源模型

【万字干货】掌握 Midjourney 提示词技巧成为 25 个流派的摄影大师

high-tech gadgets, modern and innovative atmosphere, 50mm lens (时尚的银色笔记本电脑放在简约的白色桌子上，环境照明避免屏幕眩光，配有高科技小工具

文生图训练提示词 Midjourney

开源大语言模型完整列表

基于盘古系列大模型提供大模型应用落地技术帮助用户高效的落地超大预训练模型到实际场景。

开源模型大语言模型

人工智能大语言模型微调技术：SFT 、LoRA 、Freeze 监督微调方法

监督式微调在计算机视觉、自然语言处理等领域中得到了广泛应用。

大模型微调

如何用AI做LOGO？

不过，使用Stable Diffusion需要一点点门槛：要有一台显卡说得过去的电脑，会下载并安装相应的AI绘画大模型和微调模型（LoRA），模型下载详见文末。

Stable Diffusion 文生图

AI Agent：大模型与场景间的价值之桥，但不适合当纯技术看

一文中曾经提到：大模型落地的方式是系统型超级应用。

大模型

天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

报道提到，GPT 开发速度放缓的部分原因是用于预训练的文本和数据供应减少（预训练有助于 LLM 理解概念之间的关系，从而解决起草内容或调试代码等任务）。

Scaling Law AI大模型

10个具有代表性的AI-Agents，将如何改变互联网/重塑Web3

科学技术的发展从来不是割裂的，而是在辩证统一中走向跨学科的融通。

开源模型

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

下面是一些基于ChatGLM衍生出来的大模型应用： langchain-ChatGLM：基于 langchain 的 ChatGLM 应用，实现基于可扩展知识库的问答。

大模型

如何构建基于大模型的App

ChatGPT 的出现让大模型再一次成为业界的关注热点，然而，并不是每个组织都要去训练及生成大模型的，而且各个组织的技术积累和计算资源也不太允许这样去做。

构建大模型App

几款开源的OCR识别项目，收藏备用

/github.com/tesseract-ocr/tesseract.git tesseract.js js版本的Tesseract OCR,支持一百多种语言,使用也是非常简单

OCR

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

该项目还提供了其他功能： · MusicGen：一种最新技术实现的可控文本到音乐模型。

AudioCraft 音频

<...11 12 13 141516 17 18 19 20 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1