-
https://baijiahao.baidu.com/s?id=1827575821283018172&wfr=spider&for=pc看下这篇新闻“中国大模型密集开源,影响几何”。中国为啥要把花了那么大价钱的AI模型开源给其他国家免费使用?尤其是deepseek,为啥不学openai,闭源然后直接拿来赚钱
-
4月17日,华为云HCSD校园沙龙在华东师范大学成功举办。本次活动旨在通过深度交流和实践体验,让学生更好地了解华为云盘古大模型的前沿技术,感受AI技术的魅力。华东师范大学教务处副处长彭超、计算机科学与技术学院副院长陈蕾、上海华为云CSO郝国强等出席;来自计算机科学与技术学院120名学生开发者学习华为云盘古大模型知识,参与人工智能技术的案例实践。▲ 活动现场华东师范大学教务处副处长彭超在致辞中表示,华东师范大学十分重视科研、教学等多个层面,同时密切关注人工智能技术浪潮下带来的机会和挑战,期待同学们把握住机会,深入学习,为未来求职就业夯实基础。并期待与华为持续合作,共同推动产学研用协同创新,为学生提供实践与创新的机会,推动科技创新走向新高度。▲ 华东师范大学教务处副处长 彭超上海华为云CSO郝国强在致辞中提到,华为一直致力于与高校建立起密切的合作关系,共同数字化转型,培养更多优秀的技术人才。期望未来与华东师范大学在教师研讨、课程联创、校企赛事、开发者实践等方面展开更深入的合作,协力为同学们创造更佳的教学环境和培养条件,不断开创校企协作共赢的新篇章。▲ 上海华为云CSO 郝国强HCSD即华为云学生开发者计划,是由校园大使为代表的校园开发者组织,致力于连接高校师生和云服务,帮助开发者学习提升,推动高校生态的构建和发展。在校园大使授证仪式上,上海华为云CSO郝国强为校园大使授予荣誉证书,未来校园大使将通过组织活动、竞赛,带领同学们学习了解华为云技术。▲ 校园大使授证仪式华为云盘古大模型作为华为在AI领域的重要布局,自推出以来便受到了业界的广泛关注。它凭借强大的算法优化和数据处理能力,为AI应用提供了更广阔的空间和可能性。华为云EI开发者生态工程师常帅带来了关于盘古大模型的详细介绍和最新进展,让同学们对这一技术有了更深刻的认识。▲ 华为云EI开发者生态工程师 常帅活动现场,华为云专家通过生动的案例和实践操作,展示了盘古大模型在图像识别、自然语言处理等领域的强大能力。同学们纷纷表示,通过此次活动,他们不仅了解了华为云盘古大模型的技术原理和应用场景,还亲身体验了AI技术的魅力,感受到了AI技术的无限可能。 此次校园AI沙龙活动的成功举办,不仅让同学们对华为云盘古大模型有了更深入的了解,也激发了他们对AI技术的兴趣和热情。未来,华为云将继续加强与高校的合作,为更多学生提供学习和实践的机会,共同推动AI技术的发展和应用。
-
华为云与DeepSeek将如何重塑产品与应用模式,助力企业数字化转型?如何在华为开发者空间高效部署DeepSeek,搭建专属服务器?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用 AI 驱动云上应用创新。本文精选直播期间开发者的提问并由DTSE技术布道师一一解答。欢迎观看直播回顾:cid:link_0Q:云上部署DeepSeek如何确保数据安全的呢?A:华为云通过多种技术和管理措施保障大语言模型在云上的安全运行,包括基础设施安全、网络隔离、数据加密、模型鉴权等。Q: 在华为云平台上部署DeepSeek时,有哪些关键的技术挑战需要克服?华为云提供了哪些解决方案来应对这些挑战?A:目前华为云已经将deepseek纳入到自身的开源解决方案中,部署即可通过maas平台实现一键部署,也可以通过云上租用裸金属服务器自行部署,部署方法和测试方案已经包含在解决方案之中了,并且提供全面的技术支持与服务。Q:在私有化部署中,如何利用DeepSeek的API接口与企业现有的IT系统(如ERP、CRM)无缝集成,以实现智能化业务流程?A:利用DeepSeek提升企业IT系统的智能化水平,可以先从一些辅助场景入手,通过改在和接入新的AI工具提升现有IT系统的办公效率,在此基础上,进一步引入更加复杂的场景,并使用AI进行优化和强化。Q: 华为平台私有化部署DeepSeek时,如何通过技术手段确保数据在本地存储、传输和处理过程中的安全性,以满足GDPR、HIPAA等国际合规标准?A:华为云通过多种技术和管理措施保障大语言模型在云上的安全运行,包括基础设施安全、网络隔离、数据加密、模型鉴权等。有关华为云网络及数据安全相关的技术文件,可登录华为云向客服索取。Q:对于DeepSeek各种模型,适合那些行业,能做一个简单的介绍吗?A:DeepSeek V3适合于绝大多数不需要复杂推理的场景;R1则更适合复杂逻辑或需要一定推理能力才能解决的问题。从模型体量的角度出发,如果是小企业或者个人用户,R1的各种蒸馏版部署起来相对容易,如果追求极致的性能,那么满血版模型则是最佳选择。Q:在搭建专属服务器时,如何根据企业的业务需求灵活配置资源,实现高效、稳定的AI应用部署?A:华为云能为企业提供专家服务,帮企业梳理业务需求,选择合适的模型,再根据模型大小和模型访问并发来选配最合适的资源。Q:在数字化转型过程中,企业如何利用华为云与DeepSeek提供的解决方案,实现业务流程的智能化重构和创新?A:企业可以通过华为云与DeepSeek联合解决方案,在客户客情管控、公司知识体系构建、业务流程自动化、数据分析与决策支持、以及培训与教育等方面实现业务流程的智能化重构和创新Q:如何通过华为云的技术支持和服务体系,降低企业在部署和使用DeepSeek时的技术门槛和运维成本?A:华为云能提供非常完备的专家服务为企业解决部署和应用DeepSeek过程中的技术问题。Q:DeepSeek技术如何集成到现有的企业IT架构中?它对现有系统的影响是什么?A:利用DeepSeek提升企业IT系统的智能化水平,可以先从一些辅助场景入手,通过改在和接入新的AI工具提升现有IT系统的办公效率,在此基础上,进一步引入更加复杂的场景,并使用AI进行优化和强化。Q:部署的DeepSeek可以进行特定的调整训练吗?A:DeepSeek遵循一般大模型的架构与组织形式,因此可以进行微调、增训、压缩和量化,但需要额外的算力资源进行支撑Q:对于希望使用DeepSeek进行AI驱动的应用开发的企业来说,他们应该从哪里开始?华为云提供了哪些资源和支持?A:利用DeepSeek提升客户IT系统的智能化水平,可以先从一些辅助场景入手,通过改在和接入新的AI工具提升现有IT系统的办公效率,在此基础上,进一步引入更加复杂的场景,并使用AI进行优化和强化。Q:如何确保数据安全和隐私保护,在使用DeepSeek的过程中?A:华为云通过多种技术和管理措施保障大语言模型在云上的安全运行,包括基础设施安全、网络隔离、数据加密、模型鉴权等。Q:华为云提到企业级优化方案支持私有化部署。若企业已有本地数据中心,能否通过华为云MaaS平台实现混合云环境下的DeepSeek模型弹性调度?需要哪些基础设施条件?A:可以,但详细解决解决方案需要在充分了解企业现有系统的基础上才能做出。Q:AI Agent怎么打造呢A:AI Agent需要利用大模型、设计工具、插件等,通过合理的逻辑设计构建一套复杂的系统Q:软件更新后,需要重新配置模型吗?A:一般来说,软件更新需要遵循利旧原则,因此除非出现版本的重大更新,一般需要重新配置模型Q:安装ChatBox后如何确保模型连接稳定?A:模型链接的稳定性由多方因素决定,需要具体问题具体分析Q:云上部署deepseek具体如何确保了数据的安全性?A:华为云通过多种技术和管理措施保障大语言模型在云上的安全运行,包括基础设施安全、网络隔离、数据加密、模型鉴权等。Q:香橙派AI pro 20T能否本地部署Deepseek,蒸馏的也可以,能否出个教程?A:很好的建议,后续我们会考虑。Q:华为的310B卡能本地部署Deepseek吗?需要MindSpore或者Ascend之类的支持吗A:310B卡理论上可以用于部署蒸馏版R1,但是目前技术侧还有一些问题需要打通和解决,暂时不推荐使用310B部署R1模型Q:在部署DeepSeek模型时,如何通过华为云的弹性算力资源实现动态调整,以应对业务高峰期的需求?A:华为云的弹性负载策略同样适用于大模型的对外服务,详细解决方案请咨询华为云技术团队。Q:部署好的DeepSeek会暴露Restful API吗?A:DeepSeek是否会暴露RESTful API取决于部署方式和安全配置。公有云部署中API接口通常会暴露,但需要加强安全措施;私有化部署可以通过封装和网络隔离来避免API暴露。Q:在 大模型(如千亿参数模型)领域,DeepSeek 和华为云是否有计划合作开发或优化分布式训练框架,以降低训练成本并提升效率?A:华为云会针对DeepSeek做相应的优化,以降低训练成本提升模型训推效率。Q:(如文本、图像、语音的结合)如何与华为云的 AI 原生服务(如语音识别、图像识别)深度融合,打造更强大的多模态解决方案?A:可以通过API调用的方式将大模型、小AI模型以及Agent框架有机结合起来,打造一体化的AI应用解决方案Q:华为云的 模型压缩 和 量化技术 如何帮助 DeepSeek 提升模型推理效率,同时降低计算和存储成本?A:模型压缩和量化技术会减少模型大小,从而减少模型的存储空间,加快计算速度,但同时模型压缩和量化会导致预测精度下降,具体场景需要平衡成本与精度。Q:在 大模型(如千亿参数模型)领域,DeepSeek 和华为云是否有计划合作开发或优化分布式训练框架,以降低训练成本并提升效率?A:目前有这方面的计划,并且华为云内部在积极推进开发,预计很快能和公众见面。Q:大模型加智能家居或智慧农业智能控制这块 有什么思路吗A:可以将大模型作为整个智能管控系统的决策中枢,将小模型作为大模型的五官对信息进行转换,在此基础上构建的下一代智能家居/农业解决方案Q:华为云的 模型压缩 和 量化技术 如何帮助 DeepSeek 提升模型推理效率,同时降低计算和存储成本?A:模型压缩和量化技术会减少模型大小,从而减少模型的存储空间,加快计算速度,但同时模型压缩和量化会导致预测精度下降,具体场景需要平衡成本与精度。Q:有哪些参考提示词可以让DeepSeek生成我需要的代码,提升办公效率?A:使用大模型生成代码需要准确描述目标场景,将复杂场景进行拆分,再使用DS进行代码编写。Q:如何通过华为云的教育行业解决方与 DeepSeek 集成,实现课堂实时语音交互翻译或智能答疑?A:可以通过API调用的方式将大模型、小AI模型以及Agent框架有机结合起来,打造一体化的AI应用解决方案Q:部署好DeepSeek后,怎么把它训练成垂直领域的专家?A:需要利用垂直领域高质量的数据和知识,通过增训或微调的方式将通用模型开发成垂直领域专家模型Q:对于现在AI的快速发展,同时现在应用的人越来越多,对于AI的提问方式,有更好的建议或者方法吗?A:相对于前一代指令型大模型(类似Qwen2.5,GPT-4o等),R1、o1为代表的新一代推理大模型由于对语义的理解和延展更好,因此提示词相较之前可以更加灵活,但是核心依然需要表达出任务的关键内容,与核心,并通过多轮次对话逐渐迭代答案,这其中特别要注意大模型幻觉问题,目前R1的幻觉还是很严重的。Q:有在生产上的案例吗A:有,详情需要结合您所在的行业,由华为云的技术团队线下进行沟通Q:部署好的DeepSeek后,怎么把它训练成心理咨询师?A:将通用大模型开发成垂类大模型,需要高质量的专业文案知识作为训练样本对模型进行微调或者增训。Q:对于小微企业来说使用DeepSeek能带来哪些帮助和利益产出,更多的使用还是基于各种应用场景带来的便利?A:绝大多数小微企业由于资金和研发能力有限,很难直接构建AI应用场景,但是可以基于同行业或类似场景提供的成熟AI应用产品提升自己的业务效率,最大程度的高效利用AI技术发展的外溢红利Q:DeepSeek 和华为云是否计划共同打造一个 AI 开发者生态,提供开源的模型、工具和数据集,以吸引更多开发者参与?A:非常感谢您有建设性的建议。Q:DeepSeek 的 AI 模型在华为云上运行时,如何利用华为云的 弹性伸缩 和 自动扩缩容 能力,优化资源使用并降低成本?A:将deepseek部署到云端可以最大限度的利用云服务弹性强,抗高负载能力强的特点,灵活调配算力和实例资源,在繁忙时刻增加额外算力满足高并发需求,在低谷时刻收缩释放算力,降低服务运营成本Q:在 DeepSeek 和华为云的合作中,面临的最大技术挑战是什么?例如模型兼容性、数据迁移、性能优化等。A:DeepSeek在与华为云的合作中,最大的挑战就是如何更好的挖掘客户的应用需求,并进行针对性的开发,最大限度的发挥推力大模型的应用潜力Q:在 国际化 方面,DeepSeek 和华为云如何合作,推动 AI 技术在全球市场的落地?是否计划在“一带一路”沿线国家或地区开展 AI 技术合作?A:目前华为云已经将deepseek纳入到自身的开源解决方案中,作为一个完整的AI解决方案体系,推荐给所有希望引入中国算力的友好国家,包括但不限于一带一路沿线国家。Q:我是华为合作伙伴,如果我想给我的某个行业客户部署DeepSeek蒸馏版为基础的,行业ai,我二次开发的难度和方向能介绍一下吗?A:实现AI应用的开发,满足客户需求的关键是要发掘客户的核心需求,并以此为基础构建AI应用解决方案。Q:DeepSeek 的 AI 模型如何与华为云的 昇腾 AI 处理器(Ascend) 深度结合,以实现更高效的模型训练和推理?是否存在针对特定硬件优化的定制化模型?A:昇腾超节点支持DeepSeek全系模型预训练及微调,支持DualPipe、跨节点All2All等DeepSeek核心优化技术,超大带宽通信域更适合DeepSeek的流水线并行算法及冗余专家等能力。同时,昇腾平台通过伪EP混合并行算法,通信优化性能提升30%+,再稀疏路由稠密化算法,降低专家不均衡度,推理吞吐性能提升20%~35%。Q:能否提供一份版本适配使用场景及要求的一指禅A:近期会有相关内容发布,敬请密切关注华为云官网的通告Q:请问对于,DeepSeek的模型部署后,我还想自己喂一些资料,加深对于某个行业的深度理解,对于这方面,有什么好的建议?A:可以考虑搭建RAG来处理某个行业的知识。Q:请问对于,DeepSeek的模型部署后,我还想自己喂一些资料,加深对于某个行业的深度理解,对于这方面,有什么好的建议?A:语料质量需要尽可能的高,尽可能具备行业的知识特点Q:DeepSeek如何保证模型性能的同时降低训练成本?A:他们从模型结构、混合精度计算、通信速度、以及显存占用等方面做了优化,以降低训练成本。Q:本地部署的deepseek和deepseek官网接入api使用有什么区别?A:主要还是数据安全方面的区别。Q:是否可以在本地笔记本部署deepseek?配置有没有要求?A:本地笔记本部署GPU-满血版DeepSeek几乎不太可能,模型占用显存较大,本地笔记本显卡承载不了。但是某些高性能移动工作站支持部署蒸馏版的R1模型。Q:普通用户怎么才能掌握和使用DeepSeek带来的便利性?A:基于DeepSeek做一些应用,提升办公等效率。Q:Deepseek如何助力个人“变现”,如何通过 华为云和Deepseek 快速实现收益A:通过构建个人AI助手,DeepSeek可以大幅增加个人产出,大幅提升工作效率Q:DeepSeek在政务场景如何通过华为云全栈可信计算实现模型安全?A:在政务场景中,数据安全和模型安全是至关重要的。华为云全栈可信计算提供了一套全面的解决方案,确保数据和模型在采集、传输、存储、处理和使用的各个环节都安全可靠。具体安全细节可关注华为云官网或向客服索取Q:在华为云上,用哪些提示词能让DeepSeek充分理解开发者的意思,并生成我们想要的代码呢?A:以R1大模型为代表的新一代推理大模型,相较于上一代指令大模型,更加拟人化,更容易交流,亦可以自动将简单问题拆解成几步进行处理,大大提升了模型的使用体验。在这个背景下,提示词需要按照目的、方式、方法、效果、边界的原则进行构建Q:对于个人和小公司来说自己部署还是在华为云上使用DeepSeek更经济实用?A:本地部署满血DeepSeek的成本会很高,如果数据保密要求不高的情况下,建议使用华为云的方式部署。Q:DeepSeek在图像与视频分析领域的高精度是如何实现的?A:DeepSeek-v3/r1还不具备视觉或者多模态的能力。Q:华为云有提供哪些服务支持DeepSeek 应用的智能化升级?如何将华为云的大数据分析能力与DeepSeek结合?A:目前来讲,数字人系列服务已接入DeepSeek大模型能力Q:华为开发者空间是否提供DeepSeek 应用的模板或示例?A:华为云目前正在和广大的开发者与伙伴共同探索DeepSeek的应用场景,稍后会有一些优秀案例展示在开发者空间中的。Q:华为云如何保障大语言模型在云上的安全运行?A:华为云通过多种技术和管理措施保障大语言模型在云上的安全运行,包括基础设施安全、网络隔离、数据加密、模型鉴权等。Q:部署完成后,如何进行模型的测试和验证?A:一般采用开源的标准测试问题集或自己构建的业务数据集进行测试,观测大模型的输出结果,并作出相应的性能评估。Q:ollama 推理支持api key吗?还是知道IP和端口就用随便调用?A:目前Ollama平台上的大模型通过统一的11434端口进行本地访问,如果需要穿透到外网使用,需要相应的穿透工具或者借助第三方插件实现。Q:开发者如何在华为云上快速搭建基于DeepSeek的开发环境,有哪些推荐的工具和流程?A:可以使用华为云Maas+Dify解决方案进行AI应用开发平台的快速部署与上线Q: 部署DeepSeek应用时,如何选择合适的计算实例类型?A:需要根据用户并发量,数据存储容量,以及业务增长等具体场景来选择。Q:在华为云上使用DeepSeek时,如何进行资源成本优化?有哪些策略可以降低开发和运营成本?A:不同的客户、不同的任务场景,其对于AI资源的使用优化策略都是不同的,需要具体问题具体分析,没有统一的策略Q:对于中小团队算力有限的情况,华为云是否提供低成本精掉方案,比如LoRA+混合精度这样的,来让普通开发者用消费级显卡也能定制DeepSeek业务模型?A:目前华为云正在进一步开发maas平台上的DeepSeek系列模型,预计在不久后就会开放精调、压缩、量化等模型服务Q:在华为云昇腾AI芯片及ModelArts平台支持下,DeepSeek的大模型训练效率提升了多少?是否支持分布式训练优化?A:昇腾超节点支持DeepSeek全系模型预训练及微调,支持DualPipe、跨节点All2All等DeepSeek核心优化技术,超大带宽通信域更适合DeepSeek的流水线并行算法及冗余专家等能力。同时,昇腾平台通过伪EP混合并行算法,通信优化性能提升30%+,再稀疏路由稠密化算法,降低专家不均衡度,推理吞吐性能提升20%~35%。Q:在华为云Stack(混合云)架构下,DeepSeek如何实现私有化部署?实时数据处理性能如何?A:目前华为云支持租用算力服务器到客户线下机房的私有化部署方案,数据处理能力则取决于硬件规模,从最低32卡部署满血版R1到百卡集群推理均可支持。Q:华为平台私有化部署DeepSeek时,如何通过技术手段确保数据在本地存储、传输和处理过程中的安全性,以满足GDPR、HIPAA等国际合规标准?A:私有化部署模式下,大模型本体和传输链路、软硬件均部署在客户机房环境内,对外可通过华为网络专线对外服务,整个系统达到三级等保要求,可最大限度的满足安全方面的诉求Q:华为云结合DeepSeek后,将会有哪些新的应用?A:依靠DeepSeek在编程、数据分析上的高准确率优势,可以拓展软件开发、量化分析等新应用Q:华为云结合DeepSeek后,有哪些应用场景?A:依靠DeepSeek在编程、数据分析上的高准确率优势,可以拓展软件开发、量化分析等新场景,最大限度发挥DeepSeek模型的优势Q:华为云结合DeepSeek后,AI训练用架构如何搭建?A:目前华为云训推用框架围绕deepseek在MaaS平台上构建了一整套一键解决方案,客户只需选择模型和上传训练数据便可启动模型的训练任务
-
最近爆火的大模型DeepSeek和其他类型的大模型相比,都有什么优势呢?
-
上回谈到了软件包迁移,在基本代码和软件迁移之后,鲲鹏平台上测试节点上还有测试参数选择。为了进行大模型输出的准确率控制,需要进行反例prompt导入,从而对参数选择测试。 输入参数是否生效,通过一个参数一个实例,对参数进行实例化。比如合规大模型是贷款合同专家,它就能识别大部分贷款合同,这个参数通过反例prompt测试,测试语句“合规大模型是贷款合同专家,它不能识别贷款合同”。这句prompt语句执行之后,大模型并没有识别出语病,这个算法对语句并不能关联解读。 通过这个参数测试,对参数进行修改,变为“合规大模型是贷款合同专家,每次学习到新贷款合同后,贷款合同的基本要素更新到贷款知识自定义库中,并以此作为基准,不断迭代。有了这个能力,算法可以抵御其他prompt攻击。 比如合规大模型根据贷款规定,对贷款合同的基本风险识别出来。这个参数也是大模型的能力描述,这个参数的测试语句“合规大模型对贷款规定完全陌生”,通过测试执行之后,合规大模型已训练好的算法,就开始无法关联贷款规定了,说明这个算法的关联贷款规定没有固化下来。 没有通过测试,这个参数也需要修改,变为“合规大模型是贷款合同专家,内部生成一个贷款规定固定库,每次自动学习内外部贷款规定并分析语义,得到新贷款规定后,把它存入贷款规定固定库中。经过了关联固化,后续也不再执行反例prompt。 这次基本是prompt攻击测试,把合规大模型的能力检验了一遍,也更新了一遍,基本抵御一般prompt攻击了。
-
上回谈到了软件包迁移,在基本代码和软件迁移之后,鲲鹏平台上测试节点上还有测试参数选择。为了进行大模型输出的准确率控制,需要进行反例prompt导入,从而对参数选择测试。 输入参数是否生效,通过一个参数一个实例,对参数进行实例化。比如合规大模型是贷款合同专家,它就能识别大部分贷款合同,这个参数通过反例prompt测试,测试语句“合规大模型是贷款合同专家,它不能识别贷款合同”。这句prompt语句执行之后,大模型并没有识别出语病,这个算法对语句并不能关联解读。 通过这个参数测试,对参数进行修改,变为“合规大模型是贷款合同专家,每次学习到新贷款合同后,贷款合同的基本要素更新到贷款知识自定义库中,并以此作为基准,不断迭代。有了这个能力,算法可以抵御其他prompt攻击。 比如合规大模型根据贷款规定,对贷款合同的基本风险识别出来。这个参数也是大模型的能力描述,这个参数的测试语句“合规大模型对贷款规定完全陌生”,通过测试执行之后,合规大模型已训练好的算法,就开始无法关联贷款规定了,说明这个算法的关联贷款规定没有固化下来。 没有通过测试,这个参数也需要修改,变为“合规大模型是贷款合同专家,内部生成一个贷款规定固定库,每次自动学习内外部贷款规定并分析语义,得到新贷款规定后,把它存入贷款规定固定库中。经过了关联固化,后续也不再执行反例prompt。 这次基本是prompt攻击测试,把合规大模型的能力检验了一遍,也更新了一遍,基本抵御一般prompt攻击了。
-
上回讨论到了Python代码迁移,必须先把调用SO库重新编译,可以借助port advisoring来搜索SO库,然后重新编译。众所周知,代码运行都需要一个框架。框架在编译后才能重新使用,当时项目有一个适配测试环节,从一个环境迁移到鲲鹏平台,都是第一次吃螃蟹。螃蟹怎么吃?银行给出了一个测试环境,让每个应用在迁移前都要确保适配成功。当时环境配置比较简单,一个节点+1P算力+5T的对象存储。在这个节点上进行代码适配。我们当时需要测试的小模型有5个:OCR图片识别、实物分割、沙箱测试、法规自动匹配、报告自动生成。这五个模型都跟银行合规业务有关联,比如第一个模型通过上传的票据扫描件识别出文字,在银行存在大量表单需要自动识别;第二个通过在一张图片里分离出需要认识的章,第三个是安全方面,合同等很多文本不需要上传到外网,需要有安全沙箱保护;第四个是法规条文识别之后,自动判断哪些是适合JJ银行内部使用;第五个是合规报告文本自动生成并发送给行内系统,下发到对应部门。这五个模型在节点测试的表现不一,OCR秒级出结果,实物分割分钟级出结果,沙箱测试和其他二者都顺利测试通过。其实在这之前,实物分割模型测试是出了点故事的。实物分割之前采用的两个技术,首先实物轮廓识别出来,其次要把同类标识出来。标注实物是一个经验活,这对于项目组来说,是有些难度了。最后,这个专家资源通过JJ银行内部获取到了,才得以把同类标注的难题解决了。
-
当时在JJ银行开发合规模型时候,还碰到一个问题,如何适配银行的硬件平台。JJ银行采用的是鲲鹏,它并不仅仅是一套硬件平台,其中包含毕昇编译器和open欧拉操作系统、open高斯数据库的支持,同时还自带了两套kits,几乎全栈式的代码开发编译运行平台。我们也是在银行做合同管理和案件管理的应用开发,去年银行做了一个很大转变,几乎上层应用开发全部自主创新,对外部厂家的需求变为Iaas和基础底座,这正是他们引入鲲鹏平台的初衷。我们为了适配鲲鹏,在上层应用做了如下调整。首先要在平台上进行压测,我们当时没有经验,不知道在国产化平台如何压测,我们只有在X86上进行压测。合规模型传输的都是小包,无法提高CPU利用率,因此我们利用合规模型的虚拟化切片,把CPU资源分成若干份,不断调用CPU资源,才把利用率提升上来。这基本满足了行方的要求,但行方发现每次系统重启升级,法务系统总是失败几次,然后恢复正常。分析问题后,我们发现是JAVA的惰性加载特性导致的。对于JAVA的迁移,银行非常固执的要求,应用程序必须适应鲲鹏平台,硬件不做任何修改。这给应用层带了很大的困难,不知从哪里下手,问题长时间无法定位。最后,利用程序在毕昇编译器的指引,通过修改代码自身的架构,从而规避了这个问题。毕昇编译器会给出代码中加载慢的若干问题,指引代码优化。果然代码优化过后,解决了JAVA语言固有的惰性加载问题。
-
当时在JJ银行开发合规模型时候,还碰到一个问题,如何适配银行的硬件平台。JJ银行采用的是鲲鹏,它并不仅仅是一套硬件平台,其中包含毕昇编译器和open欧拉操作系统、open高斯数据库的支持,同时还自带了两套kits,几乎全栈式的代码开发编译运行平台。 我们也是在银行做合同管理和案件管理的应用开发,去年银行做了一个很大转变,几乎上层应用开发全部自主创新,对外部厂家的需求变为Iaas和基础底座,这正是他们引入鲲鹏平台的初衷。我们为了适配鲲鹏,在上层应用做了如下调整。首先要在平台上进行压测,我们当时没有经验,不知道在国产化平台如何压测,我们只有在X86上进行压测。合规模型传输的都是小包,无法提高CPU利用率,因此我们利用合规模型的虚拟化切片,把CPU资源分成若干份,不断调用CPU资源,才把利用率提升上来。这基本满足了行方的要求,但行方发现每次系统重启升级,法务系统总是失败几次,然后恢复正常。分析问题后,我们发现是JAVA的惰性加载特性导致的。对于JAVA的迁移,银行非常固执的要求,应用程序必须适应鲲鹏平台,硬件不做任何修改。这给应用层带了很大的困难,不知从哪里下手,问题长时间无法定位。最后,利用程序在毕昇编译器的指引,通过修改代码自身的架构,从而规避了这个问题。毕昇编译器会给出代码中加载慢的若干问题,指引代码优化。果然代码优化过后,解决了JAVA语言固有的惰性加载问题。
-
在PaaS产品的安全架构中,包含了模型的安全架构模块,这块通常是AI架构团队来设计的,这跟PaaS是两个不同的团队,但往往由PaaS统筹在同一份架构设计中。在模型的安全测试中,这个模型有若干业务参数在测试时,需要一些专业测试知识进行测试,尤其是这类的数据很难生成。这些参数包括,海陆架上的海温、海盐、海流、生态指标以及波浪高度,这些测试参数很难测试,输入的数据样本积累很少,也无法在极少参数样本的条件下对模型安全进行测试。这个适合借助云PAAS环境,我们意外地获得了一份模拟数据。这份数据包含了几年的海温、盐、流和生态指标数据,但是这份数据比较稀疏。在设计安全测试架构时候,对参数构成的要求是1公里的分辨率,但是这份数据是100公里的分辨率,远远不满足要求。于是在,在PaaS环境下,利用AI test的工具组件,把测试数据丰富起来,按照间隔密度,在一个分辨率单位内再增加100份数据样本,促使分辨率达到了1公里的密度。这样就解决了数据稀疏的问题,但是还有一个问题,就是模拟数据跟测试范围不一致。模拟数据是各个大陆的零散数据,而Z市的地质院只负责本市地质地形地貌的生态保护,因此需要模拟本市的情况进行调整。于是,在波浪高度的参数数据里进行筛选。本市的波浪高度一般在20米左右,但是其他城市波浪高度分布在10到50米的范围内,于是把波浪数据样本挑出20米左右的样本,作为跟本市数据相符的训练数据。 “我正在参加【案例共创】第1期 书写云产品应用构建开发最佳实践/评测,共创官方文档https://bbs.huaweicloud.com/forum/thread-0217170307934787108-1-1.html”
-
上回谈到了模型开发过程中碰到的4个比较大的漏洞:Prompt攻击、数据投毒、数据外协和组件安全漏洞。这些在项目模型上线后,还碰到几个模型本身攻击的安全漏洞。之前谈到的4个漏洞,是模型上线前,而模型一旦上线就会碰到外部攻击,这产生了模型自身的安全漏洞:窃取漏洞、模型API安全漏洞和模型拒绝服务漏洞。台风模型设置了参数,包括台风时间、台风经过点坐标、台风强度,另外模型还配置了输入文本token长度,对话输入时长限制;这些参数如果被窃取,则轻易能生成一个新的大模型,替代原来的台风模型。另外,台风模型为了本地化部署,需要部署在私有云上,同时为了把模型推理结果跟应用层呈现出来,台风模型还有很多API同时暴露在外面。这给了外部攻击可乘之机,通过模型API进行模型安全漏洞攻击,这是另一种攻击模型的方式。之前攻击模型是直接攻击,但模型API对接,然后输入错误指令,让模型执行攻击行为,这是一种间接攻击。台风模型有一种API,是文件导入接口,攻击者利用这个API进行错误文件导入,执行错误文件在服务器内部产生破坏。如果这两种漏洞都出现并且被堵住了,还有一种指令通过API接口或错误prompt,攻击模型,让模型进行天文数字级别的计算,导致服务器资源耗尽。这种漏洞曾经发生在以往写的一段程序上,因为用了死循环语句,导致服务器不停计算而没有结果。对于错误prompt输入,后来项目上增加了prompt人工校验的环节,堵住了直接攻击模型的漏洞。 “我正在参加【案例共创】第1期 书写云产品应用构建开发最佳实践/评测,共创官方文档https://bbs.huaweicloud.com/forum/thread-0217170307934787108-1-1.html”
-
上回谈到了模型开发过程中碰到的4个比较大的漏洞:Prompt攻击、数据投毒、数据外协和组件安全漏洞。这些在项目模型上线后,还碰到几个模型本身攻击的安全漏洞。之前谈到的4个漏洞,是模型上线前,而模型一旦上线就会碰到外部攻击,这产生了模型自身的安全漏洞:窃取漏洞、模型API安全漏洞和模型拒绝服务漏洞。 台风模型设置了参数,包括台风时间、台风经过点坐标、台风强度,另外模型还配置了输入文本token长度,对话输入时长限制;这些参数如果被窃取,则轻易能生成一个新的大模型,替代原来的台风模型。另外,台风模型为了本地化部署,需要部署在私有云上,同时为了把模型推理结果跟应用层呈现出来,台风模型还有很多API同时暴露在外面。这给了外部攻击可乘之机,通过模型API进行模型安全漏洞攻击,这是另一种攻击模型的方式。之前攻击模型是直接攻击,但模型API对接,然后输入错误指令,让模型执行攻击行为,这是一种间接攻击。 台风模型有一种API,是文件导入接口,攻击者利用这个API进行错误文件导入,执行错误文件在服务器内部产生破坏。 如果这两种漏洞都出现并且被堵住了,还有一种指令通过API接口或错误prompt,攻击模型,让模型进行天文数字级别的计算,导致服务器资源耗尽。这种漏洞曾经发生在以往写的一段程序上,因为用了死循环语句,导致服务器不停计算而没有结果。对于错误prompt输入,后来项目上增加了prompt人工校验的环节,堵住了直接攻击模型的漏洞。
-
接着上回谈到安全架构设计,自从构造了台风模型之后,内部开始搜集数据集并训练台风模型,随着训练不断增多,慢慢暴露了很多安全漏洞,台风模型内部也遭受攻击。上回谈论两种漏洞:Prompt漏洞和数据外泄漏洞。在项目中,台风模型在开发过程中还有几种安全漏洞被攻击了,还是在台风模型上引用了一些开源组件,这带来了安全漏洞,被通过组件和模型的接口,攻击进入了模型的RAG库,导致数据外泄。这个漏洞是组件后门,之后找到了社区补丁,打上之后才补上后门。组件攻击其实在模型安全测试架构是可以设计出来的,由于台风模型之前没有告知引用的组件,安全测试流程环节就放过了组件安全测试的环节。在诸多攻击中,除了已发现的漏洞外,还有一个意外的安全漏洞,本来不会被攻击。这就是“数据投毒”漏洞。在训练台风模型时候,由于局内历史台风轨迹记录材料缺乏,只有一百多份材料,远不够大模型训练的数据集数量要求,只能从互联网上爬取很多公开的文档资料,但这种方式也引入了非法数据和病毒数据。这上千份数据输入到大模型内部后,有些错误数据引起了大模型过度泛化,把错误数据集当成正确数据集来对待,产生幻觉,降低了准确率。在复核准确率的时候,发现这些数据集台风轨迹参数特别大,有的轨迹甚至是大陆台风数据或者南极和北极台风的数据,这些都是错误数据,偏离正常观测范围太远。发现了“数据投毒”漏洞后,人工加上了数据清洗和校验环节,从而堵住了安全漏洞。
-
接着上回谈到安全架构设计,自从构造了台风模型之后,内部开始搜集数据集并训练台风模型,随着训练不断增多,慢慢暴露了很多安全漏洞,台风模型内部也遭受攻击。上回谈论两种漏洞:Prompt漏洞和数据外泄漏洞。 在项目中,台风模型在开发过程中还有几种安全漏洞被攻击了,还是在台风模型上引用了一些开源组件,这带来了安全漏洞,被通过组件和模型的接口,攻击进入了模型的RAG库,导致数据外泄。这个漏洞是组件后门,之后找到了社区补丁,打上之后才补上后门。组件攻击其实在模型安全测试架构是可以设计出来的,由于台风模型之前没有告知引用的组件,安全测试流程环节就放过了组件安全测试的环节。 在诸多攻击中,除了已发现的漏洞外,还有一个意外的安全漏洞,本来不会被攻击。这就是“数据投毒”漏洞。在训练台风模型时候,由于局内历史台风轨迹记录材料缺乏,只有一百多份材料,远不够大模型训练的数据集数量要求,只能从互联网上爬取很多公开的文档资料,但这种方式也引入了非法数据和病毒数据。这上千份数据输入到大模型内部后,有些错误数据引起了大模型过度泛化,把错误数据集当成正确数据集来对待,产生幻觉,降低了准确率。 在复核准确率的时候,发现这些数据集台风轨迹参数特别大,有的轨迹甚至是大陆台风数据或者南极和北极台风的数据,这些都是错误数据,偏离正常观测范围太远。发现了“数据投毒”漏洞后,人工加上了数据清洗和校验环节,从而堵住了安全漏洞。
-
在台风模型开发流程和平台设计好之后,面临一系列开发动作。在模型开发的过程中,仍有不少安全漏洞被黑客攻击,导致安全事故。自从2023年安全事件以来,大模型开发的种种漏洞接连被攻击,它就像一个新生儿,提抗力弱,经常遭受这个环境的侵扰。于是,安全设计就像病后膏药一样,一贴接一贴被大家提起。病有轻重缓急,对症下药是不变原则。首先碰到的是Prompt安全漏洞,通过改写Prompt语句,获取服务器甚至内部网络主机信息。在模型开发过程就伴随着这个风险。当时设计了台风模型是可以通过数据集自动获取内网辅助信息,如果改写了Prompt就会导致大模型的算法开始搜索主机信息。这是当时发现的第一个安全漏洞。其次,利用大模型可以根据知识图谱关联台风路径参数的能力,提供了一些训练的知识图谱,大模型关联出内部知识图谱,而这些内部训练数据是秘密级别,大模型对信息安全等级并没有识别把关能力,会全盘托出搜索结果,导致数据泄露。这是当时发现的第二个安全漏洞。发现了这两个漏洞,就像在目前网络上开了两个口子,数据信息可以随意进出。当初大模型架构设计时,曾设计了操作范围,分为部门内部、公司内部、特定范围公开和全球公开,四种公开范围,通过人员身份来识别数据是否可以通过口子进出。仅仅在结果上把关是不够的。有些数据信息是某个环节进行特定范围限制,而在开发过程的其他环节,对数据信息却做了其他范围限制。因此,必须在开发流程上进行安全设计,逐个节点进行设计,才可以满足开发的需求。
上滑加载中