文章列表-AI魔法学院

文章列表

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

给定成对数据(a, x)，其中a和x表示音频序列和文本序列，训练目标是最大化下一个文本标记的概率。

大模型语音

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

另外根据风平智能的对外的一些短视频和宣传，他们后面还要开放AI作画，还有一个叫「1号AI」的小程序，可以全程AI生成文案、作画，生成短视频，如果真的可以实现，那绝对是易用性的天花板。

数字人数字分身

被高估的Pika，被低估的多模态AI

例如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在交通领域，结合图像和传感器数据，带来更智能、更安全的自动驾驶体验；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容

大模型多模态

为什么说数智化可以帮助中小企业降本增效 ?

数智化产品为「商铺门店、公寓酒店、楼宇园区」等场景提供智能设备组网链接、视频监控、安全消防、智慧收银等集中一体化产品方案，实现「政务信息化」中在线办公、线上审批、信息公开等数字化应用的高效运转，为中小企业带来

大模型

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点，除了典型的身体骨骼关键点，还可以包括手、脚、脸部等关键点，是计算机视觉领域的基本任务之一。

ViTPose+Transformer 身体姿态

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

这一步骤确保了文本与生成的语音在时间和内容上的精准对应，提高了语音合成的准确性和连贯性。

OuteTTS-0.1-350M 音频

4K star！录屏好帮手，超酷的实时按键显示工具

今天我就帮你找到了一个好用的工具，它开源免费效果还超酷，帮你完成实时可视化键盘按键的效果，它就是：Keyviz。

Keyviz 录频

揭秘数字人困境：代理商亏钱、直播屡被封、刘润也不用了

这是数字人底层技术的自然延伸，“从技术定位上看，数字人本质上是做视频合成。

数字人

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk特别适用于256x256像素的面部区域，且支持中文、英文和日文等多种语言输入。

MuseTalk 数字人音频

玩一玩阿里通义千问开源版，Win11 RTX3060本地安装记录

预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。

大模型

Ollama的本地化又一图形工具ChatOllama，让你轻松玩转ollama，ChatGPT

3.3.基本设置设置进入Settings页面，可以设置OpenAI的key，Claude3的key以及ollama本地服务地址及端口。

ChatOllama 安装

AI换脸：FaceFusion 3.5.0更新，解决老版本无法使用问题！

这些模型利用深度学习技术生成逼真且美观的着色效果。

FaceFusion 文生图

11个非常简短却十分神奇的 ChatGPT 指令，刷新你的认知

本文将介绍 11 个短小精悍的提示词，让你很容易记忆并应用它们。

提示词

Stable Diffusion

Stable Diffusion图生图（真人转动漫）

一、简介今天给大家分享使用Stable Diffusion图生图进行真人转动漫，木木共使用了五种模型进行真人转动漫测试，重绘幅度在0.45~0.6之间，如果重绘幅度过大，会导致生成的图片偏离主体样貌

StableDiffusion 图生图

<...18 19 20 212223 24 25 26 27 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1