
GitHub 在官方解释中将这类练习数据概括为“输入、输出、代码片段及相干高低文”,但细则显示,采集范围远不止于此。 公司表示,收集内容还可以包含光标四周的代码、注释与文档、文件名、代码仓库构造、用户的界面导航路径、与 Copilot 功能的对话记录,以及对建议成果点选赞成或否决等反馈操作。
在隐私方面,GitHub 强调,仍不会应用“静态存放”的私有代码仓库内容作为练习数据,也就是说,纯真托管在 GitHub 上、但未在 Copilot 中被调用的代码,依旧在练习范围之外。 不过,一旦开辟者在私有仓库中启用并应用 Copilot,会话过程中的提示词、AI 生成的建议片段及其周边高低文,依然可能被收集用于练习,除非用户封闭相干设置。 从技巧定义上看,这与直接用整库代码练习并不雷同,但对很多开辟者而言,这种区分生怕难以带来安然感。
GitHub 称,此前在微软内部员工数据上的实验注解,基于交互数据进行练习后,Copilot 在多种编程说话上的“建议被接收率”已经出现“有意义的晋升”,是以欲望将这一做法扩大到所有付费用户身上。
对于欲望拒绝数据被用于 AI 练习的小我用户,GitHub 给出的路径是:进入 Copilot 设置页面,在“隐私”(Privacy)相干选项中,将“许可 GitHub 应用我的数据进行 AI 模型练习”(Allow GitHub to use my data for AI model training)设为“禁用”(Disabled)。 官方同时表示,此前已经在数据收集中选择“拒绝用于产品改进”的用户,其原有偏好会被保存,下月不会被主动参加新的练习筹划。
根据 GitHub 的解释,在新政策下共享的数据,可能会被包含微软在内的接洽关系公司应用,但不会开放给第三方 AI 模型供给商用于其自力练习目标。
在社区层面,这项更新,尤其是“默认赞成、需主动退出”的设计,已激发大年夜量负面反馈。 一则宣布此变革的 GitHub 社区帖子今朝已收成跨越百个“踩”以及浩瀚批驳评论,集中指向隐私风险、默认授权的合理性以及对开辟者信赖关系的冲击等问题。

发表评论 取消回复