• [问题求助] docker 机器如何消除 locked memory 限制
    贵阳一机器,实例ID c768c7a7-9633-47d0-adcf-4ed17a252381 名称notebook-c51aERROR 08-25 09:20:47 [core.py:586]   File "/vllm-workspace/LMCache-Ascend/lmcache_ascend/integration/vllm/vllm_v1_adapter.py", line 155, in init_lmcache_engineERROR 08-25 09:20:47 [core.py:586]     engine = LMCacheEngineBuilder.get_or_create(ERROR 08-25 09:20:47 [core.py:586]   File "/vllm-workspace/LMCache/lmcache/v1/cache_engine.py", line 947, in get_or_createERROR 08-25 09:20:47 [core.py:586]     memory_allocator = cls._Create_memory_allocator(config, metadata)ERROR 08-25 09:20:47 [core.py:586]   File "/vllm-workspace/LMCache-Ascend/lmcache_ascend/v1/cache_engine.py", line 21, in _ascend_create_memory_allocatorERROR 08-25 09:20:47 [core.py:586]     return AscendMixedMemoryAllocator(int(max_local_cpu_size * 1024**3))ERROR 08-25 09:20:47 [core.py:586]   File "/vllm-workspace/LMCache-Ascend/lmcache_ascend/v1/memory_management.py", line 69, in __init__ERROR 08-25 09:20:47 [core.py:586]     lmc_ops.host_register(self.buffer)ERROR 08-25 09:20:47 [core.py:586] RuntimeError: Unable to pin host memory with error code: -1ERROR 08-25 09:20:47 [core.py:586] Exception raised from halRegisterHostPtr at /vllm-workspace/LMCache-Ascend/csrc/managed_mem.cpp:109 (most recent call first):ERROR 08-25 09:20:47 [core.py:586] frame #0: c10::Error::Error(c10::SourceLocation, std::string) + 0xb8 (0xfffc2cf2c908 in /usr/local/python3.10.17/lib/python3.10/site-packages/torch/lib/libc10.so)ERROR 08-25 09:20:47 [core.py:586] frame #1: c10::detail::torchCheckFail(char const*, char const*, unsigned int, std::string const&) + 0x6c (0xfffc2cedb404 in /usr/local/python3.10.17/lib/python3.10/site-packages/torch/lib/libc10.so)ERROR 08-25 09:20:47 [core.py:586] frame #2: <unknown function> + 0x1abf8 (0xfff9c407abf8 in /vllm-workspace/LMCache-Ascend/lmcache_ascend/c_ops.cpython-310-aarch64-linux-gnu.so)运行 Lmcache-ascend 遇到了上述问题,主要是由于可以 pin 的 host memory 有限制,原因是 CPU 的内存锁定方法存在问题,系统的内存锁定限制过低,且在容器环境下没有权限执行 ulimit -l unlimited 来提升内存锁定限制。同时无法调整服务的配置,放开内存锁定---以下是参考资料调整 containerd 服务的配置,放开内存锁定的限制,具体步骤如下: 修改 containerd 服务配置文件:找到 containerd 服务的配置文件,通常路径为 /usr/lib/systemd/system/containerd.service(不同系统可能路径有差异,可通过 systemctl status containerd 查看服务配置文件路径)。添加内存锁定限制配置:在配置文件的 [Service] 部分,添加 LimitMEMLOCK=infinity 配置项,该配置项用于设置内存锁定的限制为无限制。
  • [问题求助] notebook 的容器实例如何提升 locked memory 的限制
    RuntimeError: Unable to pin host memory with error code: -1 · Issue #5 · LMCache/LMCache-Ascend在跑 LMCACHE-ASCEND 的时候,发现会出现如上的错误主要的解决方式就是:部署实例的时候使用 LimitMEMLOCK 或者通过 ulimit -l 解决上限但是由于 notebook 中没有 root 权限,所以无法通过后者解决;由于无法使用 docker run 语句 和 docker-compose 所以无法通过前者解决;想问一下要怎么解决这个内存限制问题 
  • [问题求助] notebook 自定义镜像创建失败
    以下是 dockerfile 的文件# # Copyright (c) 2025 Huawei Technologies Co., Ltd. All Rights Reserved. # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License. # FROM quay.io/ascend/cann:8.2.rc1-910b-openeuler22.03-py3.11 # Set the user ma-user whose UID is 1000 and the user group ma-group whose GID is 100 USER root RUN default_user=$(getent passwd 1000 | awk -F ':' '{print $1}') || echo "uid: 1000 does not exist" && \ default_group=$(getent group 100 | awk -F ':' '{print $1}') || echo "gid: 100 does not exist" && \ if [ ! -z ${default_user} ] && [ ${default_user} != "ma-user" ]; then \ userdel -r ${default_user}; \ fi && \ if [ ! -z ${default_group} ] && [ ${default_group} != "ma-group" ]; then \ groupdel -f ${default_group}; \ fi && \ groupadd -g 100 ma-group && useradd -d /home/ma-user -m -u 1000 -g 100 -s /bin/bash ma-user && \ chmod -R 750 /home/ma-user ARG PIP_INDEX_URL="https://mirrors.aliyun.com/pypi/simple" ARG COMPILE_CUSTOM_KERNELS=1 ENV COMPILE_CUSTOM_KERNELS=${COMPILE_CUSTOM_KERNELS} RUN yum update -y && \ yum install -y python3-pip git vim wget net-tools gcc gcc-c++ make cmake numactl-devel && \ rm -rf /var/cache/yum RUN pip config set global.index-url ${PIP_INDEX_URL} # Set pip source to a faster mirror RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple WORKDIR /workspace COPY . /workspace/LMCache-Ascend/ # Install vLLM ARG VLLM_REPO=https://githubfast.com/vllm-project/vllm.git ARG VLLM_TAG=v0.9.2 RUN git clone --depth 1 $VLLM_REPO --branch $VLLM_TAG /workspace/vllm # In x86, triton will be installed by vllm. But in Ascend, triton doesn't work correctly. we need to uninstall it. RUN VLLM_TARGET_DEVICE="empty" python3 -m pip install -e /workspace/vllm/ --extra-index https://download.pytorch.org/whl/cpu/ --retries 5 --timeout 30 && \ python3 -m pip uninstall -y triton # Install vLLM-Ascend ARG VLLM_ASCEND_REPO=https://githubfast.com/vllm-project/vllm-ascend.git ARG VLLM_ASCEND_TAG=v0.9.2rc1 RUN git clone --depth 1 $VLLM_ASCEND_REPO --branch $VLLM_ASCEND_TAG /workspace/vllm-ascend RUN cd /workspace/vllm-ascend && \ git apply -p1 /workspace/LMCache-Ascend/docker/kv-connector-v1.diff RUN export PIP_EXTRA_INDEX_URL=https://mirrors.huaweicloud.com/ascend/repos/pypi && \ source /usr/local/Ascend/ascend-toolkit/set_env.sh && \ source /usr/local/Ascend/nnal/atb/set_env.sh && \ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/Ascend/ascend-toolkit/latest/`uname -i`-linux/devlib && \ python3 -m pip install -v -e /workspace/vllm-ascend/ --extra-index https://download.pytorch.org/whl/cpu/ # Install modelscope (for fast download) and ray (for multinode) RUN python3 -m pip install modelscope ray # Install LMCache ARG LMCACHE_REPO=https://githubfast.com/LMCache/LMCache.git ARG LMCACHE_TAG=v0.3.3 RUN git clone --depth 1 $LMCACHE_REPO --branch $LMCACHE_TAG /workspace/LMCache # our build is based on arm64 RUN sed -i "s/^infinistore$/infinistore; platform_machine == 'x86_64'/" /workspace/LMCache/requirements/common.txt # Install LMCache with retries and timeout RUN export NO_CUDA_EXT=1 && python3 -m pip install -v -e /workspace/LMCache --retries 5 --timeout 30 # Install LMCache-Ascend RUN cd /workspace/LMCache-Ascend && \ source /usr/local/Ascend/ascend-toolkit/set_env.sh && \ source /usr/local/Ascend/nnal/atb/set_env.sh && \ export SOC_VERSION=ASCEND910B3 && \ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/Ascend/ascend-toolkit/latest/`uname -i`-linux/devlib && \ python3 -m pip install -v --no-build-isolation -e . && \ python3 -m pip cache purge # Switch to user ma-user USER ma-user CMD ["/bin/bash"] 注册的镜像选项如下镜像管理界面创建notebook的参数但是最后创建 notebook 失败了
  • [问题求助] 昇腾镜像社区下载的ascend-pytorch镜像无法在ModelArts中启动
    按照要求官网的教程下载了ascend-pytorch镜像(Ubuntu 20.04版本),并在ModelArts的容器镜像管理中心进行了注册和自定义,但是始终无法启动开发环境的Notebook。下载的镜像版本:制作Docker时的命令为# Replace it with the actual image version. FROM swr.cn-south-1.myhuaweicloud.com/ascendhub/ascend-pytorch:24.0.RC3-A2-2.1.0-ubuntu20.04 # Set the user ma-user whose UID is 1000 and the user group ma-group whose GID is 100 USER root RUN default_user=$(getent passwd 1000 | awk -F ':' '{print $1}') || echo "uid: 1000 does not exist" && \ default_group=$(getent group 100 | awk -F ':' '{print $1}') || echo "gid: 100 does not exist" && \ if [ ! -z ${default_user} ] && [ ${default_user} != "ma-user" ]; then \ userdel -r ${default_user}; \ fi && \ if [ ! -z ${default_group} ] && [ ${default_group} != "ma-group" ]; then \ groupdel -f ${default_group}; \ fi && \ groupadd -g 100 ma-group && useradd -d /home/ma-user -m -u 1000 -g 100 -s /bin/bash ma-user && \ # Grant the read, write, and execute permissions on the target directory to the user ma-user. chmod -R 750 /home/ma-user USER ma-user
  • [问题求助] docker镜像push时,单层不超10G,push失败,提示denied: Authenticate Error,如何解决
    docker镜像push时,单层不超10G,且有部分层状态为pushed,但存在一些层为pushing状态,进度条已拉满,但仍push失败,该如何解决?
  • [问题求助] 华为云容器镜像docker登陆后push时仍然提示未登录 denied: You may not login yet 
    华为云容器镜像docker登陆后push时仍然提示未登录 docker login -u cn-north-4@XXXXXXXXXX-p XXXXXXXXXXXX swr.cn-north-4.myhuaweicloud.com WARNING! Using --password via the CLI is insecure. Use --password-stdin. WARNING! Your password will be stored unencrypted in /home/crf/.docker/config.json. Configure a credential helper to remove this warning. See https://docs.docker.com/engine/reference/commandline/login/#credential-stores  Login Succeeded  sudo docker push swr.cn-north-4.myhuaweicloud.com/crf/mynginx:1.0 The push refers to repository [swr.cn-north-4.myhuaweicloud.com/xxxx/mynginx] 825fb68b6033: Preparing  7619c0ba3c92: Preparing  1c1f11fd65d6: Preparing  6b133b4de5e6: Preparing  3d07a4a7eb2a: Preparing  756474215d29: Waiting  8d853c8add5d: Waiting  denied: You may not login yet 
  • [问题求助] 华为云phoenix-cd-cce部署出错
    想求助是哪里出错了。
  • [问题求助] 镜像npm包不是最新的导致下载依赖包的时候报错
    项目中使用到了一个依赖包 @typescript-eslint/scope-manager,镜像库中最新的版本是6.19.1,而 npm 官方库的版本是 6.20.0,版本不同步,导致下载依赖包的时候报错,有没有办法同步到最新版本
  • [问题求助] cce容器引擎部署nacos
    cce容器引擎如何打nacos镜像并且部署配置nacos
  • [问题求助] Openeuler系统中文字符集安装包
    在以openeuler22.03镜像进行打包时,想要设置中文字符集在尝试安装相关字符集包都没能在openeuler系统中找到,如何在openeuler系统镜像中设置中文字符集
  • [其他问题] 【百模千态】当时忘记领取代金券了,现在找不到代金券的入口了
    如题,查看账户确实没有代金券,但是也找不到当时的入口了
  • 【百模千态+领取优惠券失败】
    领取优惠券失败,但未有界面提示的同人账号情况。
  • [技术干货] 容器上传镜像
    容器镜像服务是一种支持容器镜像全生命周期管理的服务,提供简单易用、安全可靠的镜像管理功能,帮助用户快速部署容器化服务开始——安装容器引擎——构建镜像——创建组织——连接容器镜像服务——上传镜像——结束
  • [热门活动] 华为云 UCS (On-Premises) 发布——运行在您本地数据中心的CCE集群
    华为云分布式云原生UCS服务,是面向分布式云场景下的新一代云原生产品,提供UCS (Huawei Cloud)、UCS (Partner Cloud)、UCS (Multi-Cloud)、UCS (On-Premises) 以及UCS (Attached Clusters) 等产品,覆盖公有云、多云、本地数据中心、边缘等分布式云场景。UCS (Huawei Cloud):由UCS纳管的华为云CCE集群或CCE Turbo集群。UCS (Partner Cloud):由UCS纳管的华为伙伴云(如天翼云、移动云等)CCE集群或CCE Turbo集群。UCS (Multi-Cloud): 由UCS提供的运行在第三方云服务供应商(如AWS、GCP)基础设施之上的CCE集群。UCS (Attached Clusters): 由UCS纳管满足CNCF标准的第三方Kubernetes集群,如AWS EKS、GCP GKE或者自建的Kubernetes集群。UCS (On-Premises):由UCS提供的运行在客户本地数据中心基础设施之上的CCE集群。继UCS (Huawei Cloud) 和UCS (Attached Clusters) 商用上线后,日前UCS (On-Premises) 也正式上线,欢迎申请试用。Gartner报告预测到2025年超过85%的应用为云原生应用,云原生是企业数字化、智能化的必由之路。同时,据IDC调研指出目前云原生应用中有超过82%的客户使用了多个云服务提供商的产品来部署业务,以容器为代表的云原生技术和业务的跨云跨地域分布式部署已成为业界发展趋势。企业使用公有云服务,期望依托新架构,加快云原生架构升级,从而更快地实现数字化转型进程。然而,由于技术和法规限制等原因,部分工作负载不得不在本地运行。同时,这些企业还希望利用公有云的可伸缩性来处理突发的流量高峰,从而不必提前预测业务高峰和波动,无需购买冗余资源。此外,云上、云下同时部署本身面临着管理挑战,亟需一个统一的平台来管理跨集群应用的分发、实例之间的流量。UCS (On-Premises)正是在这样的企业诉求下推出的产品,提供了云上和云下统一治理的解决方案。借助UCS (On-Premises),您可以在云上开发和部署应用,同时保持业务在本地运行的完全灵活性,以满足法规或策略要求。图1 UCS (On-Premises) 架构图如上图1所示,华为云UCS (On-Premises) 具备以下核心优势:支持异构基础设施,有效利旧UCS (On-Premises) 支持裸金属服务器、VMWare虚拟化等异构基础设施,可有效利旧已有资源。同时,可支持Ubuntu22.04以及国产信创OS等操作系统。本地数据中心按需弹性上云,有效降本UCS (On-Premises) 支持按需动态弹性扩缩,业务常态运行时,应用在客户本地机房运行,性能满足常规业务诉求。业务突发峰值时,基于容器舰队(Karmada)跨集群管理能力,可快速将业务弹性扩容到公有云CCE Turbo容器集群,达到成本与性能的平衡。云上&云下一致体验,功能灵活扩展UCS (On-Premises) 复用公有云租户体系,客户本地无须部署租户管理系统,统一从公有云UCS入口进行操作,包括从云端进行集群管理、负载管理、容器洞察以及服务治理等,提供云上&云下一致性体验。同时,可以将Service Mesh、Prometheus、Gitops等插件从公有云灵活扩展到UCS (On-Premises)。本地部署,安全合规UCS (On-Premises) 部署在用户本地数据中心,根据用户安全等级要求,支持公网、云专线、VPN等方式接入到云端,并通过堡垒机/防火墙等安全技术,实现云端和本地数据的交互,满足敏感数据本地驻留诉求。作为华为云UCS产品的一部分,UCS (On-Premises) 扩展了UCS的云上能力,让客户可以在本地环境中运行应用。当前,华为云UCS 已与诸多行业客户联合创新:某汽车企业基于UCS (On-Premises) 实现本地AI计算以及数据仿真,集群利用率提升2倍自动驾驶AI训练平台对“AI计算”、“灵活弹性扩容”有着强烈的诉求。UCS (On-Premises) 使能AI计算,通过Volcano调度加速完成AI训练、AI推理以及数据仿真,集群利用率提升2倍。同时,UCS (On-Premises) 支持现有IDC扩容使用云上资源,适应业务弹性诉求,轻松应对流量高峰。UCS多集群统一管理使能客户专注业务发展,统一调度能力提升AI训练任务调度效率,支持客户业务快速发展。某电信企业基于UCS (On-Premises) 实现边缘数据中心统一管理,多集群管理效率提升90%企业为满足对时延敏感的业务场景,通常将业务部署在边缘数据中心,但分散的、大量的多集群管理成为企业快速创新的阻碍,通过UCS (On-Premises) 可以帮助用户实现本地容器集群管理,并在云端实现多集群统一运维,多集群管理效率提升90%。UCS提供的云原生服务是一种更高效的管理方式,加速企业的业务创新。某互联网金融企业基于UCS实现开发、测试和生产环境隔离,研发效能提升30%企业IT组织经常会在不同的集群上运行开发、测试和生产环境,确保开发人员在开发过程中不会影响生产环境,同时生产环境也不会被开发人员的测试所影响。该企业将UCS (On-Premises) 作为本地开发和测试的运行环境,将UCS (Huawei Cloud) 作为业务的生产运行环境,并通过DevOps流水线来完成开发、测试和生产环境的发布,研发效能提升30%。目前华为云UCS (On-Premises) 已开放上线,欢迎试用!cid:link_0
  • [云实验室] 沙箱实验里导入外部仓库建立项目时提示没有权限
    在云原生开发认证课程的实验沙箱里,创好集群、绑好节点后,在代码托管导入外部仓库时,建立项目的时候提示没有权限怎么回事?