文章列表-AI魔法学院

文章列表

Gartner：2024年人工智能渗透的十大战略技术趋势

Gartner提供了对未来十年的IT前沿预测，同时探讨了生成式AI如何改变高管对每个主题的思维方式。

Gartner 人工智能

初创企业必知的 30种商业模式（附实例）

如果没有好的商业模式，核心技术就没法变现，你的一切努力也会付之东流。

初创商业模式

Stability AI开源上新：3D生成引入视频扩散模型

这次带来的是图生3D方面的新进展：基于Stable Video Diffusion的Stable Video 3D（SV3D），只用一张图片就能生成高质量3D网格。

sv3d 建模

OpenAI大动作：Whisper large-v3重塑语音识别技术

今天，我们就来深入了解这个技术突破，并探讨它如何改变我们与机器的交流方式。

Whisper 语音识别

“How to make money with GPTs” 教你集成第三方url的Action+知识库的完整版GPTs

前几天随着Open AI DevDay 开发者大会GPTs的发布，一个新的话题瞬间变得火热！

GPTs 知识库

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

「MimicTalk」是由浙江大学和字节跳动联合研发的一个项目，它利用先进的NeRF（神经辐射场）技术，在「短时间内训练出高质量」的3D说话头像模型，极大地提高了个性化数字人视频的生成效率和质量。

MimicTalk 开源模型

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

该系列模型接受图像和文本输入，并提供高质量的文本输出。

minicpm 面壁

如何从零开始训练专属 LoRA 模型？4600字总结送给你！

确定好画风后，就需要准备用于训练的素材图片，素材图的质量直接决定了模型的质量，好的训练集有以下要求：不少于 15 张的高质量图片，一般可以准备 20-50 张图；图片主体内容清晰可辨

训练

真超越了GPT？国产大模型实用场景横评②

时至今日，这一基本需求仍未改变。

大模型

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

两者均是将输出乘上了服从伯努利分布的随机变量m ~ Bernoulli(p)，其中p是指定的确定的参数，表示取1的概率。

大模型

全球生成式 AI 应用全景图

、产品销售等，其中C 端应用以功能订阅和按量付费为主，商业化已经趋于成熟，而B 端应用则主要为功能订阅、解决方案和产品销售，即将进入全面商业化阶段。

大模型

【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision

截至2022年3月，文章已有700+引用量，可见其影响力。

OpenAI 自然语言监督

一文带你认识ELMo

在NLP任务中表现出了很好的性能，已经是很多NLP任务不可或缺的一部分，论文作者认为一个好的word representation需要能建模以下两部分信息：单词的特征，如语义，语法；单词在不同语境下的变化

embedding

Stable Diffusion

硬核解读Stable Diffusion（系列一）

对比可以看出，autoencoder将图片压缩到latent后再重建其实是有损的，比如会出现文字和人脸的畸变，在256x256分辨率下是比较明显的，512x512下效果会好很多。

StableDiffusion 文生图

2023年人工智能行业总结

这一年中，AI领域经历了众多的变革，仿佛将过去十几年的积累在一夜之间彻底释放。

人工智能 AGI 思考总结

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1