近日,2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会上,北京人工智能数据训练基地正式启用。同日,北京规模最大的公共算力平台——北京亦庄人工智能公共算力平台也同步正式启用。
2024年《政府工作报告》提出,要开展“人工智能+”行动,AI发展驶上快车道。在Scaling Law(规模法则)基本成为第一性原理的当下,各地纷纷也从数据、算力入手,抢抓发展机遇。
训练数据来自企业据悉,此次启用的北京人工智能数据训练基地是国内第一个人工智能数据训练基地。其职能主要是组织数据供给方、加工服务方、模型训练方“进场”合作,推动高质量数据价值释放,助力通用模型和行业垂类模型训练精调。
数据是人工智能大模型发展的燃料,海量数据作用之下,AI智能涌现。可以说,谁拥有足够量的数据,谁就更有可能在AI竞争中占据优势。
训练基地的数据何来?北京亦庄智能城市研究院集团有限公司党委副书记、总经理颜敏在接受媒体采访时曾表示,已有35家企业参与到了训练基地的建设中,分别负责数据供给、数据加工、数据需求、平台运营等7个方面。其中,共有13家企业为训练基地提供了总计6.8T的数据。
作为人工智能成长的“养料”,数据不仅要保持足够供给,还需做好数据版权、权责分配等合规工作。
面对安全之问,北京人工智能数据训练基地以“监管沙盒”机制进行了回应。
监管沙盒的优势在于,能够减少创新理念进入市场的时间与潜在成本,降低监管不确定性,防止风险大面积外溢引发危害事故。
具体来看,政策创新方面,监管沙盒将遵循弱版权保护政策、通知移除规则、风险补偿规则和创新纠纷解决机制,降低潜在数据风险;在数据安全方面,监管沙盒将通过完善的技术安全保障措施降低数据安全隐患,确保数据存储、加工和交付的安全,并即时监管数据使用的合规性。
算力方面,北京亦庄人工智能公共算力平台可提供算力达3000P,算力规模在北京排名第一。
北京一直有发展成为人工智能高地的野心。北京市经济和信息化局数据显示,截至2022年10月,北京拥有人工智能核心企业1048家,占我国人工智能核心企业总量的29%。
2023年11月,全国首个数据基础制度先行区——北京数据基础制度先行区启动。根据《北京数据基础制度先行区创建方案》,到2030年,北京汇聚高价值数据资产总量达到100PB,数据交易额达到100亿元,数据产业规模超过1000亿元。
2024年《北京市政府工作报告》指出,要统筹推进数字产业化,开展数据资产入表、数据跨境便利化服务等综合改革试点;推动算力中心、数据训练基地、国家区块链枢纽节点等一批重大项目落地,新建5G基站1万个以上。
多地抢抓发展机遇数据、算力是驱动人工智能产业发展必不可少的资源,在AI加速赋能千行百业的当下,保障数据和算力的高质量供给成为各地的“必答题”。
在近日召开的首次全国数据工作会议上,加快建设全国一体化算力网、支持公共数据开发成为国家数据局未来一段时间工作重点。国家数据局发布的《深化智慧城市发展 推进城市全域数字化转型的指导意见(征求意见稿)》也提出,要统筹推进城市算力网建设,培育壮大数据产业等。
高质量的数据是人工智能发展的核心要素。去年,一项来自Epoch AI Research团队的研究结果表明,高质量的语言数据存量将在2026年耗尽。这意味着,如果数据效率没有显著提高或没有新的数据源可用,那么到2040年,模型的规模增长将放缓。
高质量数据“见底”,行业数据分散等也影响训练数据质量,在不远的未来应如何解决这一问题?
兴业证券报告指出,加强公共数据的开放开发,是当前解决数据分散、提升训练数据质量的重要举措。
据不完全统计,北京、上海、深圳等地在近年来发布多份文件,力图解决AI训练数据供给之困。比如,去年6月发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)》就提到,要搭建全市公共数据开放运营平台,建立多模态公共数据集,打造高质量中文语料数据等。
AI潮起,我国多地也加速算力产业布局。其中,针对人工智能的智能算力布局正逐渐铺开。
工信部等6部门于去年10月发布的《算力基础设施高质量发展行动计划》指出,要结合人工智能产业发展和业务需求,逐步合理提升智能算力占比。推动不同计算架构的智能算力与通用算力协同发展。
在数字基础设施建设方面,1月,国家大数据(贵州)综合试验区人工智能训练场在贵阳大数据科创城举行授牌仪式。
智算中心的建设也如火如荼。3月11日,华南数谷智算中心投产。该智算中心一期规划建设了16000PAI异构算力池,项目总投资达23.6亿元。同样在3月,中国移动(克拉玛依)云计算智算中心启用。据介绍,到2024年底,算力集群规模将达2023P,成为西北地区规模最大的智算中心。
据不完全统计,截至目前,包括深圳、南京、成都等多个城市都建设运行了城市智算中心,为本地产业数字化转型、培育新兴产业(包括大模型)等提供算力支持。
在政策方面,各地都拿出十足诚意,以“真金白银”促产业发展。去年,成都、宁夏等地则在去年宣布每年将发放总额不超过1000万元、4000万元的算力券支持机构使用相应资源。今年上海发布的《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024-2025年)》提出,通过“算力券”等激励机制,引导智能算力集约化调度;北京经济技术开发区管理委员会发布的《关于加快打造AI原生产业创新高地的若干政策》则表示要每年发放1亿元的算力券。