“数据”《生成式人工智能服务管理暂行办法》出台，公共数据将如何赋能大模型？

2023-07-13 21:05:24来源：21世纪经济报道

今天，很高兴为大家分享来自21世纪经济报道的《生成式人工智能服务管理暂行办法》出台，公共数据将如何赋能大模型？，如果您对《生成式人工智能服务管理暂行办法》出台，公共数据将如何赋能大模型？感兴趣，请往下看。

21世纪经济报道记者张雅婷广州报道

7月13日，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局联合公布《生成式人工智能服务管理暂行办法》（以下简称《办法》），自今年8月15日起施行。

相比征求意见稿，《办法》新增了推动生成式人工智能基础设施和公共训练数据资源平台建设，以及推动公共数据分类分级有序开放等举措。公共数据如何助力生成式人工智能创新应用，如何分类分级有序开放实现训练数据供给，还待落地探索与实践。

公共数据赋能大模型

在《办法》公布当天，京东“言犀”大模型在2023京东全球科技探索者大会上正式亮相，印证着在百度“文心一言”、阿里“通义千问”、讯飞“星火”、商汤“商量”等大模型诞生后，国内生成式人工智能浪潮依然在翻涌。虽具备文本生成、智能问答、代码生成等能力，多家大模型目前仍存在数据安全隐患、缺乏行业深度、成本过高等问题。

为促进生成式人工智能健康发展，《办法》提出，推动生成式人工智能基础设施和公共训练数据资源平台建设。

对此，对外经济贸易大学数字经济与法律创新研究中心执行主任张欣表示，生成式人工智能的训练和研发需要大量的基础设施和基础资源支持，平台化的建设有助于更好地协调和优化训练资源，更好地集中精力完成技术层面的攻关和突破。

建设公共训练数据资源平台的用意，在同济大学法学院副教授、上海市人工智能社会治理协同创新中心研究员陈吉栋看来，在于向社会提供更多人工智能训练数据集，提高人工智能训练数据范围和质量，解决数据供给不足的问题。

人工智能模型的训练，离不开高质量的数据。随着我国近年来不断推进数字政府改革，推动公共数据汇聚、共享、开放、开发，强化公共数据质量管理监督，公共数据的质量不断提升。

此次《办法》要求，推动公共数据分类分级有序开放，扩展高质量的公共训练数据资源。“公共数据结构清晰、标准性强、真实性高、权益关系相对简单的特点，是非常优质的训练数据资源，应尽量发挥其价值。”华南师范大学法学院特聘研究员、数字政府与数字经济法治经济研究中心主任马颜昕说。

在公共数据赋能人工智能方面，多地已出台相关政策给予支持，具体举措与当前各地建设数据要素市场、促进公共数据开放利用等关系紧密。

例如，北京5月印发的《北京市加快建设具有全球影响力的人工智能创新策源地实施方案（2023-2025年）》中提出，加强公共数据开放共享，包括动态更新公共数据开放计划，加快构建高质量人工智能训练数据集等。6月，深圳发布《深圳市加快推动人工智能高质量发展高水平应用行动方案（2023—2024年）》中提出，搭建全市公共数据开放运营平台，建立多模态公共数据集，打造高质量中文语料数据等。

数据价值与风险防范

高质量的公共数据将极大赋能生成式人工智能，不管是城市大脑、智慧政务、智慧民生服务等政务领域，还是交通、医疗、金融等行业领域。但这项举措如何落地，还需进一步研究细化，并探索行之有效的路径。

建设公共训练数据资源平台，其所汇集的公共训练数据的内涵与外延为何，尚有待观察。“如果可以汇集社会公开的数据集，无疑将具有更大意义。目前来看，这一平台与各地已建立的公共数据资源平台应有所区别，平台的建设方及具体运作机制等问题还待解决。”陈吉栋说。

对于推动公共数据分类分级有序开放来强化训练数据供给，南开大学法学院教授、南开大学竞争法研究中心主陈兵表示，由于公共数据维度丰富、使用场景广、覆盖用户主体多，且切实关乎人们的吃穿住行用，在平台建设过程中需要重点注意两个问题。

“一方面是保障数据安全，包括提升数据来源的真实性、可靠性，可以依托不同的应用场景开展训练数据工作；另一方面是完善数据基础制度，包括对公共数据的界定、公共数据分级分类等。”陈兵说。

陈吉栋认为，此举与目前各地出台的公共数据开放利用的条例内容相衔接，利用公共数据投喂人工智能，应按照有条件开放、无条件开放和禁止开放的方式进行。但目前来看，公共数据开放存在较多阻力，开放的数据范围和质量不够，应进一步推行有序开放，亟待分类分级，发挥公共数据红利，探索契合公共数据价值利用规律的开放之道。

因公共数据关系到大量公共与国家安全，马颜昕从防范数据风险的角度建议，应根据数据价值和数据风险两个维度来匹配不同的开放和安全策略，实现安全与利用的平衡。“这也是分级分类和有序两个词的核心之意。在利用公共数据进行数据训练时，应当注意制度和技术建设，通过授权运营等制度以及多方安全计算等技术来平衡安全与利用。”马颜昕说。

（作者：张雅婷编辑：吴立洋）

好了，关于《生成式人工智能服务管理暂行办法》出台，公共数据将如何赋能大模型？就讲到这。

返回科技金融网首页 >>

版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“科技金融网”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场，如有侵权，请联系我们删除。