IBM发布大型数据集Project CodeNet,旨在教会AI如何理解甚至编写代码。
CodeNet发布于这周的IBM Think Conference,并声称是最大的代码开源数据集(大约是最接近的代码集的10倍)。CodeNet具有5亿行代码,1400万个示例,并涵盖55种编程语言,包括Python,C ++,Java,Go,COBOL,Pascal等。
诸如OpenAI GPT-3的项目向人类展示了AI如何变得越来越擅长编写人类语言,但是编写本机代码的问题仍遗留至今。CodeNet旨在改变这种状况。
在可预见的将来,像GPT-3这样的项目将成为人类的工具,可以在一定的基本标准下提高生产力。目前该基本标准仍然需要进行修改,而且需在人类更具有优势的那些领域做出补足,如创造力、情感和同情心。
至少在最初,CodeNet将与GPT-3类似,它将产生增强工具,通过改善AI自己对如何执行此类任务的理解,来帮助人类加快代码的编写和检查。
IBM宣称:“鉴于其以多种语言编写的大量程序,我们相信Project CodeNet可以用作源到源翻译的基准数据集,并且可以用于AI和编码ImageNet数据集,为计算机视觉工作。”
2011年,美国企业家马克·安德森留下了一句名言:“软件正在吞噬整个世界”。随着技术的快速发展,如今甚至汽车都具有超过1亿行代码(随着无人驾驶汽车的出现,这个数字还在迅速增长)。
IBM表示,其最近正在帮助该公司的大型汽车客户之一更新一项由3,500个多代Java文件组成的2亿美元资产。这些文件包含超过一百万行代码。通过应用CodeNet的AI算法进行代码堆栈,IBM成功将原本长达一年的代码迁移过程缩短到仅四个星期。
随着算力的不断突破,AI为我们的生产生活按下了加速键,越来越多的AI工具将人力从冗杂低效的工作中解放出来,正如西井科技持续不断地在软硬件以及物流和城运等应用场景的探索和突破,最终解放生产力,为我们的未来生产生活赋能。