文章列表-AI魔法学院

文章列表

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

遵循之前工作的原则，作者提出音频质量的差异有助于增强语音理解能力。

Baichuan-Omni 多模态大模型

领域大模型-训练Trick&落地思考

但有些并没有什么理论依据，全是自己的实验经验&结论，可能跟大家有所不同，欢迎大家讨论，交流分享。

垂直训练大模型

图片拖拽神器DragGAN介绍及官方安装文档说明

该技术的一个流行实现是拖放生成器(DragGAN)，这是一个深度学习模型，当用户将图像拖放到基于web的界面中时，它可以将图像转换为另一个图像。

开源

Stable Diffusion

Stable Diffusion 常用插件推荐

使用 Stable Diffusion 时，插件是必不可少的，也正是因为插件的存在，才使得 Stable Diffusion 的自由程度最高，以下推荐几个常用插件

Stable Diffusion 插件

截至2023年5月份业界支持中文大语言模型开源总结及商用协议分析

BLOOM是一个仅解码器的Transformer语言模型，它是在ROOTS语料库上进行训练的，该语料库包含46种自然语言和13种编程语言。

大模型

会议纪要类提示词大全-最全会议纪要prompt

我是一名教育工作者，工作内容包括但不限于教学工作、教育管理、学生服务、师资培训、学术研究，要求会议模板全面有条理地罗列会议环节。

prompt 提示词

中文开源OCR框架对比及介绍

OCR的基本流程可以简单分为以下几步： 1.

OCR

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

Prompt工程是大型语言模型（LLM）在不同任务场景中适用的高效方法，即在LLM的输入中加入任务场景的相关描述。

大模型

大模型应用发展的方向｜代理 Agent 的兴起及其未来（下）

AutoGPT是一个流行的开源项目，旨在实现完全自主的系统。

大模型

零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本

在前期的开发者邀测中，拥有阿里、美团等多家大厂工作经历的知乎大佬@苏洋就利用Yi的API搭建出了一个翻译器应用。

零一万物 YI 李开复

让你不怕任何事的3个顶级思维（建议收藏）

在人生的旅程中，我们经常会面临各种各样的挑战和困境。

灰度思维减法思维

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

但是近期，网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice，刚上线仅一周时间就暴涨4200颗星，问鼎当周GitHub trending流行榜第一。

EmotiVoice 语音库

2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini nano

11月OpenAI先是用GPTs革了套壳GPT们的命，然后再不惜献祭董事会搏了一波天大的流量。

小语言模型

Stable Diffusion

造梦师手记：腾讯加入Stable Diffusion的ControlNet模型开发，效果艳丽

ghostmix模型作者认为，应该尽可能的少做大模型，然后使用lora、ControlNet等微调工具来适配更多的场景。

Stable Diffusion

解读OpenAI Sora文生视频技术原理

二、扩散模型与Diffusion Transformer,组合成强大的信息提取器 OpenAI 讲Sora 是一个Diffusion Transformer，这来自伯克利学者的工作

sora

<...40 41 42 434445 46 47 48 49 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1