“模型”兔展智能：以视觉为核心大模型“兔灵”首次揭开面纱，聚焦内容生产精准可控

2023-09-13 19:05:08来源：创业邦

今天，很高兴为大家分享来自创业邦的兔展智能：以视觉为核心大模型“兔灵”首次揭开面纱，聚焦内容生产精准可控，如果您对兔展智能：以视觉为核心大模型“兔灵”首次揭开面纱，聚焦内容生产精准可控感兴趣，请往下看。

来源：创业邦

编辑丨信陵

题图丨创业邦

2013年，国内第一个用HTML5语言编写的微楼书在北大宿舍里诞生。

其创造者是来自山东莱阳的89后小伙董少灵，他从高中时期就开始创业，干过本地信息分类网站、蛋糕坊、电商网站、翻译服务公司，直到微信公众号的兴起让他看到了巨大的商机。

当时，他发现，大多数企业并不能很好地运营公众号，又恰逢有客户提到“能不能把公司宣传册搬到微信上”？

于是，命运的齿轮开始转动。

第二年，还在北大国际法学院攻读硕士的他正式成立兔展智能，仅靠着H5制作平台，半年就获客600万。9年来，他带领团队自主研发了新一代内容引擎、传播大数据工具、营销云平台、数字人工具等产品，如今企业用户规模已经突破4000万，涵盖金融、医药、零售、地产、美妆等行业。

业务高速发展的同时，公司也颇受资本市场青睐，目前已获得9轮融资，其中不乏招商局、深创投、投控东海、越秀产业基金等头部投资机构。

日前，在创业邦主办的2023AIGC技术应用大会上，兔展智能入选2023值得关注的AIGC公司（模型层）榜单。同时，兔展智能正式对外发布以图像视觉为核心的多模态大模型“兔灵”，与多数语言单一模态为核心的模型形成差异化优势。

兔展智能创始人、董事长兼CEO董少灵表示，相较于ChatGPT、Claude等更多以语言为核心的多模态产品，兔灵大模型是一个视觉占7成、语言占3成的全新混合体。“兔展在研发大模型之初，就没想做到全知全能，而是只聚焦于解决垂直领域的问题，也因此可以更好地防幻觉。”

那么，兔灵大模型到底有何独特之处？又将会诞生出哪些杀手级应用？采用什么样的商业化策略？我们一一揭开。

以视觉为核心，兔灵大模型首次揭开面纱

兔展智能从最早推出H5工具，到如今的基于全球第四代前端三剑客的数字内容引擎，客户一直以来所希望的无非是更低成本、更快捷、更多元、更丰富地把内容生产出来，并且无需手写前端代码就能够快速生成精美的移动端富媒体页面，这也是他们一直以来使用兔展的原因。

面对这一波生成式AI浪潮，围绕人类叙事的三个环节：交互体验、感官和知识理解，经过不懈的努力，兔展智能不断做精、做深中国新一代AI数字内容总装线，最终形成了基于兔灵多模态大模型的AIGC内容引擎。

基于DragonDiffusion的AI图像引擎是兔灵多模态大模型的关键核心，用户只需要进行框选和拖拽，就可以轻松实现AI图像编辑和再生成，配合用于文本到图像扩散模型的控制器DragonAdapter，即可实现图片生成精准可控，满足商用场景诉求。

据悉，DragonDiffusion，由北京大学张健老师团队VILLA（Visual-Information Intelligent Learning LAB），依托北京大学深圳研究生院-兔展智能AIGC联合实验室，联合腾讯ARC Lab共同带来。

DragonDiffusion和DragonAdapter均属于兔展智能在图像视觉领域的原创技术成果Dragon系列，其中还包括业界首个能精准高效生成创意中文字体的技术Dragon CN Encoder、智能排版布局技术Dragon Layout等，Dragon系列与FreeDoM（免训练条件扩散模型）共同构成了兔展智能图像视觉素材生成高效、精准、可控的技术框架。

董少灵提到，“语言领域，我们在科研上重点就做了一件事，也就是‘防幻觉’这一基础的机理——如何进行下一个词的预测及其概率可行，让机器不会对这世界上不存在的法律和案例胡编乱造，这也是ChatGPT在很多垂直领域的应用中，很多专业人士最核心的苦恼。”

以ChatLaw为例，作为经过防幻觉技术约束过的模型，其在多个法律测试机上跑分均超越GPT4。“这跟我们在视觉模态里核心关注精准控制生产，是一脉相承的。”

应用层面，分别包括以下三个环节：

在交互环节，兔展智能基于全球第四代底层前端架构，推出了DragonCode智码，促进开发环节大幅提效，为数字化内容生产插上腾飞翅膀；

在视觉环节，Chat&Drag-Image智图提供多种图片再生成能力，Drag&Chat交互模式助力图片生成精准可控；

在理解环节，致力于用大语言模型技术让复杂知识变简单的ChatKnowledge项目，涵盖了法律垂直领域跑分第一的法律大模型产品ChatLaw，以及即将陆续发布的支持用户在微信生态下搭建属于自己知识库的文件理解大模型产品ChatDocument、和辅助用户金融研究与决策的金融研究领域语言大模型产品ChatFinance。

董少灵认为，在这一波生成式浪潮中，会诞生一批出彩的杀手级应用，而“Magic Point是成为爆款应用不可或缺的因素，要让用户觉得就如同变魔术一样。”他指出，兔展智能之所以在创业之初半年获得600万用户，到如今突破4000万用户，就是踩准了用户这一心理。

“十年前，在别人发给你的都是PPT、Word文档，你却能做出带音乐和动画效果的H5，会不会觉得很惊讶？”因此这就是当年的Magic Point。

再如，多年来，设计艺术字、个性签名是一门生意，在淘宝上甚至有店铺月销20万单，而作为业界首个能精准高效生成创意中文字体的技术，Dragon CN Encoder则可以让用户只花费极低的成本就可以快速生成创意中文字体。董少灵指出，目前市面上99%的工具都是套壳Stable diffusion，还没有任何一款能够自动生产中文字体的大模型。

这样一款应用配合国庆节或新闻热点事件营销就很容易破圈。例如，中国大模型终于解决了中文字体的自动生成问题，每个人都可以拥有自己的一款独创字体，很容易点燃用户的民族自豪感。

如今，ChatDocument每天可以帮用户节省30分钟，ChatFinance可以成为用户的金融顾问，ChatLaw则可以成为用户的法律顾问，这些都已经具备成为爆款的要素。“而接下来，谁能帮助设计师解决精准生图的问题必火，谁能做到第一个生成中文字体，也有可能会火。”

保持克制，聚焦于垂直领域大模型

为了达成让人类叙事更生动高效的愿景，兔展智能之所以既做大模型的上层也做底层，是由于用别人的底层一方面实现不了自己的想法，另一方面也解决不了金融客户的合规、自主可控需求。董少灵透露。

同时，在底层配比上，兔灵大模型的多模态也是一个独特的存在。

ChatGPT、Claude、Cohere更多的是以语言为核心的多模态，先做语言，再做视觉，其语言占比可能达到了8成，而兔灵大模型则是一个视觉占7成、语言占3成的全新混合体。同时，兔展在研发大模型之初，就没想做到全知全能，而是只聚焦于解决垂直领域的问题，也因此可以更好地防幻觉。

兔展智能战略与投融负责人董应赛表示，不少公司拥抱大模型，一开始往往并没有想好落地场景和应用，只是很坚定地要投入到这件事中来。但兔展智能一直以来的风格是相对务实的，往往会从一些比较具象的客户需求和场景入手进而形成商业闭环。

对于这一波生成式AI，兔展智能更多的是“扎硬寨，打呆仗”，在应用层的推出上一直比较克制。

董少灵说到，“去年，很多人忽悠我们做元宇宙，我们并没有头脑一热扎进去，只挑选了既不眩晕且信息传递效率够的一个细分场景推出了产品——MR短视频。”今年春节期间，兔展还推出了AI数字人拜年小程序，只需上传个人照片就可以一键生成自己数字人形象的拜年视频。

尽管这款小程序在春节期间一度火爆，但董少灵仔细研究抖音后发现，平台不给数字人直播流量，从本质上来说还是一个fake story（虚假的故事）。因此，他建议创业者，在一些火热的风口面前还需要有自己一定的判断和坚守，若是不符合公司的长期价值就不能做，不如把更多的精力投入在团队认可的事情上。

相比元宇宙等风口，这波生成式AI一个非常重要的特征就是能够让更多人享受到AI的普惠化。

例如，中国内地Photoshop的活跃用户仅为300万人，兔展目前用户数量为4000万，而借助生成式AI，以往没有富媒体表达手段的人都将会是用户，他们不再需要绘画、PS等技能，一样能够做出精美的富媒体页面。此外，在公共法律服务方面，即便是一个毫无法律知识的人也可以利用ChatLaw把诉状生成出来，找到法援律师签名盖章后就可以递交诉状了。

这显然是一个更加庞大的增量市场。

董少灵感慨道，创业就像一个万米长跑，有的人短期内挣钱可能没问题，但在这个时代最终能够赢得比赛的还是会属于认真做事的创业者。

“百模大战”从未发生，应用层机会不可低估

今年以来AI热度持续攀升，近半年内全球近百家公司、机构相继发布大语言模型相关产品。国内也正面临着“百模大战”，有数据显示，全国有至少130家公司研究大模型产品，其中做通用大模型的有78家。

董少灵则认为，“百模大战”从未发生，从资金、数据、算力这三要素上都难以支持。

巧妇难为无米之炊，算力可以看作是火，数据是米，算法是巧妇，如果一家大模型公司没有一个相当体量的某一领域领先的数据集就很难成事。哪怕算法人员都是顶级，没有火和米，也同样煮不出来饭。

他直言，国内真正在认真投资源做底座的大模型公司不会超过20家，但应用层能看到很多机会，未来甚至能长出上百上千个应用，并且存活率会很高，因此用“百用大战”来形容更加贴切。

电的发明和使用引发第二次工业革命，给人类带来巨大的福祉和财富。董少灵指出，这一波生成式AI是对生产力、生产关系的系统性重塑，也是对人类理解智能、理解人、理解自己的一个重塑，是一场启蒙运动+工业革命。未来应用层的繁荣是必然，会有非常多有价值的应用出现，甚至是未曾涉及的空白领域（例如ChatDocument），并且成功率不会低，可能更多需要的是耐心。

尤其是，与SaaS更多解决的是公司问题不同，这一波生成式AI切实解决的是个人问题，因此用户付费习惯天然会变好，这就为应用的存活率提供了有利的条件。

董少灵认为，若是把大模型当成某种类型的IaaS，在中国能够真正挣钱的IaaS厂商只是极少数，但是在IaaS之上却能够长出抖音、滴滴等无数个杀手级应用。云计算厂商甚至不敌这些应用公司的估值，所以，大模型应用层的机会完全不可低估，是一个真正能够大批量产生机会的地方。同时，不要过度夸张大模型本身的商业价值，除非某家公司能够在商业变现里做到垄断级别，否则都不会太好挣钱。

回顾近一年来的研发历程，他坦言，做大模型更多的是焦虑与兴奋并存。焦虑在于做大模型就意味着会对短期的营收、资源的投向造成一定影响，而兴奋就在于其对于社会价值是不可同日而语的。“我们内部很少讨论是与否的问题，更多讨论的是how，而不是why，如何更科学地投入才能让成功率最高，才能够抓住这波洪流一般的机遇。”

作为拥有多年创业经验的老兵，董少灵也对大模型创业者给出了自己的建议。

他谈到，对于创业公司来说，先要学会“扎硬寨，打呆仗”，三要素（资金、数据、算力）中至少要具备其二，并且至少在两个垂类里要具备数一数二的要素，再去拼自己所缺少的一项，才有可能真正坐上大模型竞争的牌桌。

对于投资人来说，各家创业公司都有愿景和雄心壮志，短期可能看的是谁家热闹，冷静下来看的是谁更具备能力。例如，一家缺少数据、从0获客的公司就很难赢过拥有900T数据、已经占据场景，有用户飞轮和数据飞轮的公司。

而兔展智能显然是后者，董少灵相信：万事都有因，只要因是对的，果自然就会来。

好了，关于兔展智能：以视觉为核心大模型“兔灵”首次揭开面纱，聚焦内容生产精准可控就讲到这。

返回科技金融网首页 >>

版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“科技金融网”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场，如有侵权，请联系我们删除。