-
Lofreq 鲲鹏部署简介LoFreq是一种快速且灵敏的变体调用程序,用于从下一代测序数据中推断SNV和插入缺失。它充分利用了测序中固有的碱基调用质量和其他错误来源(例如映射或碱基/插入缺失对齐不确定性),这些错误通常被其他方法忽略或仅用于过滤。LoFreq 几乎可以在任何类型的比对测序数据(例如 Illumina、IonTorrent 或 Pacbio)上运行,因为没有使用依赖于机器或测序技术的阈值。它自动适应覆盖率和测序质量的变化,因此可以应用于各种数据集,例如病毒/准种、细菌、宏基因组学或体细胞数据。LoFreq非常敏感;最值得注意的是,它能够预测低于平均碱基检出质量(即测序错误率)的变异。每个变体调用都分配了一个 p 值,允许严格的假阳性控制。尽管它没有使用近似值或启发式方法,但由于几个运行时优化,它非常有效,并且还提供了(伪)并行实现。LoFreq是通用且足够快的,可应用于高覆盖率数据和大型基因组。在单个处理器上,分析覆盖率接近 4000 倍的登革热基因组测序数据需要一分钟,在覆盖率 600 倍的大肠杆菌基因组上调用 SNV 大约需要一个小时,在覆盖率100 倍的人类外显子组数据集上运行大约需要一个小时。Lofreq官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir Lofreq APP基础环境依赖详见下载HTSlib : 1.10.2详见Lofreq : 2.1.5cd $root/APP && wget -qO- https://github.com/CSB5/lofreq/archive/refs/tags/v2.1.5.tar.gz | tar -zx安装解压cd $root/APP && tar -zxvf v2.1.5.tar.gz && cd lofreq-2.1.5编译安装./bootstrap ./configure --with-htslib=$root/HTSlib --prefix=$root/Lofreq make -j48 make install依赖库cp $root/HTSlib/lib/libhts.so.3 /usr/lib/ ldconfig配置环境变量echo "# Lofreq" >> /etc/profile echo "export PATH=$PATH:$root/Lofreq/bin" >> /etc/profile echo "# End Lofreq" >> /etc/profile重加载环境变量source /etc/profile验证lofreq
-
环境JavaKafka单机部署下载wget https://archive.apache.org/dist/kafka/2.3.0/kafka_2.12-2.3.0.tgz解压tar -zxvf kafka_2.12-2.3.0.tgz进入bin目录cd kafka_2.12-2.3.0/bin/启动zookeeper./zookeeper-server-start.sh ../config/zookeeper.properties &新开终端,启动kafka./kafka-server-start.sh ../config/server.properties &新开终端,查看运行状况netstat -anput | grep 9092创建kafka副本及分区./kafka-topics.sh --create --bootstrap-server 192.168.141.128:9092 --replication-factor 1 --partitions 1 --topic newTopic查看本机的topic./kafka-topics.sh --list --bootstrap-server 192.168.141.128:9092记录消息到topic./kafka-console-producer.sh --broker-list 192.168.141.128:9092 --topic newTopic新开终端,读取消息(--from-beginning表示从开头读取)./kafka-console-consumer.sh --bootstrap-server 192.168.141.128:9092 --topic newTopic参考教程logstash下载wget https://artifacts.elastic.co/downloads/logstash/logstash-6.5.4.tar.gz解压tar -zxvf logstash-6.5.4.tar.gz -C ./logstash进入bin目录cd ./logstash新建配置文件vim logstash.conf ```config input { kafka { bootstrap_servers =>"192.168.141.128:9092" topics => ["newTopic"] } }filter { json { source => "message" remove_field =>["message"] } date { match => ["timestamp", "UNIX_MS"] target => "@timestamp" } }output{stdout { codec => json_lines } elasticsearch { hosts => ["192.168.141.128:9200"] index => "indexName" } }- 启动 ```shell # 测试 logstash -e 'input{stdin{}}output{stdout{codec=>rubydebug}}' # 配置文件 logstash -f logstash.conf从控制台输入hello world回车elasticsearch下载wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.4.tar.gz解压tar -zxvf elasticsearch-6.5.4.tar.gz创建数据和日志的目录mkdir -p /data/elasticsearch/data mkdir -p /data/elasticsearch/logs创建用户/并授权useradd elasticsearch passwd elasticsearch chown -R elasticsearch:elasticsearch ./elasticsearch-6.5.4 chown -R elasticsearch:elasticsearch /data/elasticsearch修改elasticsearch的配置文件vim ./elasticsearch-6.5.4/config/elasticsearch.ymlcat >> ./elasticsearch-6.5.4/config/elasticsearch.yml << EOF cluster.name: my-application node.name: node-1 path.data: /data/elasticsearch/data path.logs: /data/elasticsearch/logs network.host: 192.168.141.128 http.port: 9200 http.cors.enabled: true http.cors.allow-origin: "*" bootstrap.memory_lock: false bootstrap.system_call_filter: false EOF修改JVM内存为内存的一半vim ./elasticsearch-6.5.4/config/jvm.options ```shell-Xms2g -Xmx2g- 修改文件创建数量的大小`vim /etc/security/limits.conf` ```shell elasticsearch soft nofile 65536 elasticsearch hard nofile 65536设置文件的大小参数vim /etc/security/limits.d/20-nproc.conf ```shell elasticsearch soft nofile 65536 elasticsearch hard nofile 65536 hard nproc 4096```设置最大内存的分配vim /etc/sysctl.confvm.max_map_count=655360重新加载配置sysctl -p切换用户su elasticsearch启动服务./elasticsearch-6.5.4/bin/elasticsearch验证端口是否打开netstat -natp | grep 9200查看节点curl http://192.168.141.128:9200/?pretty获取索引信息curl -XGET http://192.168.141.128:9200/index?pretty查询索引全部内容curl -XGET http://192.168.141.128:9092/index/_search?pretty参考教程logstash + kafka + elasticsearch参考文档
-
HTSlib 鲲鹏部署简介HTSlib是一个C库,用于读取和写入高通量测序数据。HTSlib是SAMtools使用的核心库。HTSlib还提供了bgzip,htsfile和tabix实用程序。HTSlib官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir HTSlib APP基础环境依赖详见下载HTSlib : 1.10.2cd $root/APP && wget cid:link_0/releases/download/1.10.2/htslib-1.10.2.tar.bz2安装依赖dnf install zlib-devel bzip2 bzip2-devel xz-devel -y解压cd $root/APP && tar -jxvf htslib-1.10.2.tar.bz2 && cd htslib-1.10.2编译安装./configure --prefix=$root/HTSlib make -j48 make install配置环境变量echo "# HTSlib" >> /etc/profile echo "export PATH=$PATH:$root/HTSlib/bin" >> /etc/profile echo "# End HTSlib" >> /etc/profile重加载环境变量source /etc/profile验证htsfile --version
-
HLA-HD 鲲鹏适配简介HLA-HD(来自高质量词典的HLA分型)可以从NGS数据(fastq格式)中以6位精度准确确定HLA等位基因。也可以应用 RNA-Seq 数据。HLA-HD官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir HLA-HD软件下载HLA-HD : 1.4.0下载地址(需登录) 上传至服务器相应路径如 $root/HLA-HDBowtie2 : 2.4.1详见基础环境依赖详见部署依赖yum group install "Development Tools"解压cd $root/HLA-HD && tar -zxvf hlahd.1.4.0.tar.gz && cd hlahd.1.4.0编译安装sh install配置环境变量echo "# HLA-HD" >> /etc/profile echo "export PATH=$root/HLA-HD/bin:$PATH" >> /etc/profile echo "# End HLA-HD" >> /etc/profile重加载环境变量source /etc/profile验证hlahd.sh
-
echo 'devtools::install_github("zhiyhu/masonmd");q()' | R --no-savefind / -name libgfortran.so ln -s libgfortran.so /usr/lib/libgfortran.soecho 'BiocManager::install("org.Hs.eg.db", force = TRUE);q()' | R --no-save
-
HDF5 鲲鹏部署简介HDF5 是一种基于整数线性规划的新型 HLA 基因分型算法,能够通过同时选择所有主要和次要 HLA I 类等位基因,从 NGS 数据中产生准确的 4 位数 HLA 基因分型预测。HDF5官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir HDF5 APP下载HDF5 : 1.12.2cd $root/APP && wget https://hdf-wordpress-1.s3.amazonaws.com/wp-content/uploads/manual/HDF5/HDF5_1_12_2/source/hdf5-1.12.2.tar.gz基础环境依赖详见安装进入目录cd $root/APP && tar -zxvf hdf5-1.12.2.tar.gz && cd hdf5-1.12.2部署./configure --prefix=$root/HDF5 make -j128 make check make install make check-install配置环境变量echo "# HDF5" >> /etc/profile echo "export HDF5=$root/HDF5" >> /etc/profile echo "export PATH=$HDF5/bin:$PATH" >> /etc/profile echo "export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HDF5/lib" >> /etc/profile echo "export INCLUDE=$HDF5/include:$INCLUDE" >> /etc/profile echo "export HDF5_DIR=$HDF5" >> /etc/profile echo "# End HDF5" >> /etc/profile重加载环境变量source /etc/profile
-
GLPK 鲲鹏适配简介GLPK(GNU线性规划套件)软件包旨在解决大规模线性规划(LP)、混合整数规划(MIP)和其他相关问题。它是一组用ANSI C编写的例程,并以可调用库的形式组织。GLPK支持GNU MathProg建模语言,这是AMPL语言的子集。GLPK官方网站样机配置CPU鲲鹏920系统Kylin Linux Advanced Server V10内核4.19.90-23.6.v2101.ky10.aarch64路径规划选定根目录mkdir -p /opt/GLPK && cd /opt/GLPK基础环境依赖详见GLPK部署GLPK : 5.0curl -L https://ftp.gnu.org/gnu/glpk/glpk-5.0.tar.gz | tar zx- cd glpk-5.0 ./configure --prefix=`pwd`/.. make -j`nproc` && make install -j`nproc` sed -i '$a# GLPK\nexport GLPK_HOME='`pwd`'/..\nexport PATH=$PATH:$GLPK_HOME/bin\nexport LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$GLPK_HOME/lib\nexport INCLUDE=$INCLUDE:$GLPK_HOME/include' /etc/profile && source /etc/profile glpsol
-
GATK 4.0 鲲鹏适配简介GATK全称Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。GATK4是Broad Institute公司2018年1月发布的GATK最新版本,该版本相较于上一代版本有较大改动,包含了新开发的流程和最新的基于机器学习算法的工具。GATK4极大的优化了性能、运算速度、接口灵活性以及可扩展性,端到端的流程即可基于本地也可运行于云端,同时基于spark开发,支持集群部署。GATK官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir GATK BLAT SAMTOOLS APP软件下载GATK : 4.0.0.0cd $root/GATK && wget https://github.com/broadinstitute/gatk/releases/download/4.0.0.0/gatk-4.0.0.0.zipBLAT : 35.1cd $root/BLAT && wget https://codeload.github.com/djhshih/blat/tar.gz/v35.1SAMTOOLS : 0.10详见BWA : 0.7.17详见HADOOP : 3.1.2详见SPARK : 2.44详见基础环境依赖详见环境部署依赖yum install -y java-1.8.0-openjdk-devel.aarch64 ncurses-devel.aarch64 bzip2-devel.aarch64BLAT# 解压 BLAT 压缩包 cd $root/BLAT && mv v35.1 blat-35.1.tar.gz && tar -zxvf blat-35.1.tar.gz # 进入源码目录 cd blat-35.1/ # 声明安装环境变量(本CLI ssh连接有效) export MACHTYPE=aarch64 # 编译 make # 环境变量 echo "# BLAT" >> /etc/profile echo "export PATH=$root/BLAT/blat-35.1/bin:$PATH" >> /etc/profile echo "# End BLAT" >> /etc/profile # 重新加载环境变量 source /etc/profileGATK# 解压 GATK 压缩包 cd $root/GATK && unzip gatk-4.0.0.0.zip # 环境变量 echo "# GATK" >> /etc/profile echo "export PATH=$root/GATK/gatk-4.0.0.0:$PATH" >> /etc/profile echo "# End GATK" >> /etc/profile # 重新加载环境变量 source /etc/profile # 验证 gatk -help
-
customProDB 鲲鹏部署简介customProDB:一个 R 包,用于从 RNA-Seq 数据生成定制的蛋白质数据库。customProDB官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64下载R : 4.2.1详见基础环境依赖详见安装dnf install -y openssl-develRif (!require("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("customProDB")验证library(customProDB)
-
Conda 鲲鹏部署简介Conda是一个可在Linux、macOS和Windows上运行的开源软件包管理和环境管理系统。Conda可快速安装、运行和升级软件包及其依赖包。Conda可在本地计算机上轻松地进行创建、保存、加载和切换环境。它是为Python程序创建的,但是也可以打包和分发适用于任何语言的软件。Conda作为软件包管理器,可以帮助您查找和安装软件包。如果您需要一个使用其他版本的Python的软件包,无需切换到其他环境管理器,因为conda也是环境管理器,仅需几个命令,您就可以设置一个完全独立的环境来运行该不同版本的Python,同时继续在正常环境中运行您通常的Python版本。Conda官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir APP下载Python : 3.9.2详见Anaconda : 2021.11cd $root/APP && wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2021.11-Linux-aarch64.sh 基础环境依赖详见安装执行一键部署脚本,而后按提示操作cd $root/APP && sh Anaconda3-2021.11-Linux-aarch64.sh开启新CLI ssh,取消自动激活伪终端(base),再新开Cli ssh生效conda config --set auto_activate_base false进入伪终端(base)conda activate退出伪终端(base)conda deactivate验证conda
-
CNVkit 鲲鹏部署简介一个Python库和命令行软件工具包,用于研究CNV(Copy number variation)拷贝数变异的软件。CNVkit官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir CNVkit下载CNVkit : 0.9.7cd $root/CNVkit && wget -qO- https://github.com/etal/cnvkit/archive/v0.9.7.tar.gz | tar -zxcython : 0.29.19cd $root/CNVkit && wget -qO- https://github.com/cython/cython/archive/0.29.19.tar.gz | tar -zxPython : 3.9.2详见基础环境依赖详见安装依赖pip3 install biopython joblib numpy scipy networkx cython pomegranate pyfaidx reportlab scikit-learn matplotlibcython ```shell下载python3-devel 编译pomegranateecho 'BiocManager::install("DNAcopy", force=TRUE);q()' | R --no-save解压/进入源码目录cd $root/CNVkit/cython-0.29.19安装python3 setup.py install- CNVkit ```shell # 解压/进入源码目录 cd $root/CNVkit/cnvkit-0.9.7 # 安装 python3 setup.py install验证pip3 list | grep CNVkit cnvkit.py batch -h
-
BWA 鲲鹏适配简介BWA是用于将低分叉序列比对到大的参考基因组比如人基因组的软件包。BWA主要是 由三种算法组成 : BWA-backtrack、BWA-SW和BWA-MEM。BWA-backtrack是针对于 illumina测序reads最多100bp的算法。BWA-SW和BWA-MEM主要是针对于从70bp到1Mbp的更长序列,其均拥有一些相同的特征例如长reads支持和序列分开模式。但是相对而言,更加推荐BWA-MEM,可以更快和更准确在更高质量的序列上比对。BWA-MEM相比较BWA-backtrack在70-100bp illumina reads上有更好的性能。BWA官方网站样机配置CPU鲲鹏920系统Kylin Linux Advanced Server V10内核4.19.90-23.6.v2101.ky10.aarch64路径规划选定根目录mkdir -p /opt/BWA && cd /opt/BWA基础环境依赖详见BWA部署BWA : 0.7.17curl -L https://nchc.dl.sourceforge.net/project/bio-bwa/bwa-0.7.17.tar.bz2 | tar jx-SSE2NEONcd bwa-0.7.17 && wget https://raw.githubusercontent.com/jratcliff63367/sse2neon/master/SSE2NEON.hBWA : 0.7.17sed -i 's/#include <emmintrin.h>/#include "SSE2NEON.h"/g' ksw.c编译安装make -j`grep -c '^processor' /proc/cpuinfo`加载环境变量sed -i '$a# BWA\nexport PATH=$PATH:'`pwd` /etc/profile && source /etc/profile验证bwa mem
-
Bowtie2 鲲鹏部署简介Bowtie2是将测序reads与长参考序列比对工具(适用于将长度大约为50到100或1000字符的reads与相对较长的基因组,如哺乳动物基因组,进行比对)。可以处理非常长的读数(即10s或100s的千字节),但它针对近期测序仪产生的读数长度和误差模式进行了优化,如Illumina HiSeq 2000、Roche 454和Ion Torrent仪器。Bowtie2使用FM索引(基于Burrows-Wheeler Transform或BWT)对基因组进行索引,以此来保持其占用较小内存。对于人类基因组来说,内存占用在3.2G左右。Bowtie2支持间隔,局部和双端对齐模式,可以同时使用多个处理器来极大的提升比对速度。Bowtie2官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir Bowtie2 APP下载Bowtie2 : 2.4.1cd $root/Bowtie2 && wget -qO- https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.4.1/bowtie2-2.4.1-source.zip | bsdtar -xf-基础环境依赖详见SIMDe : 0.7.0-rc-1cd $root/APP && wget -qO- https://github.com/simd-everywhere/simde/archive/refs/tags/v0.7.0-rc-1.tar.gz | tar -zxPython : 3.9.2详见安装依赖yum install -y zlib.aarch64 zlib-devel.aarch64 zlib-static.aarch64解压/进入源码目录/cd $root/Bowtie2/bowtie2-2.4.1补充依赖文件tar -zxvf v0.7.0-rc-1.tar.gz cp -a $root/App/simde-0.7.0-rc-1/simde $root/Bowtie2/bowtie2-2.4.1/third_party/simde cp -a $root/App/sse2neon-master/SSE2NEON.h $root/Bowtie2/bowtie2-2.4.1/third_party/simde/simde/x86/编译安装CC=`which gcc` CXX=`which g++` CXXFLAGS='-O3 -march=armv8.2-a -mtune=tsv110' CFLAGS='-O3 -march=armv8.2-a -mtune=tsv110' make NO_TBB=1 POPCNT_CAPABILITY=0 all配置环境变量echo "# Bowtie2" >> /etc/profile echo "export PATH=$root/Bowtie2/bowtie2-2.4.1:$PATH" >> /etc/profile echo "# End Bowtie2" >> /etc/profile重加载环境变量source /etc/profile
-
Boost 鲲鹏部署简介Boost 是为 C++语言标准库提供扩展的一些 C++程序库的总称。Boost 库是一个可移植、提供源代码的 C++库,作为标准库的后备,是 C++标准化进程的开发引擎之一,是为 C++语言标准库提供扩展的一些 C++程序库的总称。Boost官方网站样机配置CPU鲲鹏920系统openEuler 20.03 (LTS)内核4.19.90-2003.4.0.0036.oe1.aarch64路径规划选定根目录如 $rootmkdir -p $root && cd $root mkdir Boost APP基础环境依赖详见下载Boost : 1.79.0cd $root/APP && wget https://boostorg.jfrog.io/artifactory/main/release/1.79.0/source/boost_1_79_0.tar.gz安装依赖yum -y install gcc gcc-c++ bzip2 bzip2-devel bzip2-libs python-devel解压cd $root/APP && tar -zxvf boost_1_79_0.tar.gz && cd boost_1_79_0编译安装./bootstrap.sh --with-libraries="date_time,filesystem,program_options,serialization,system,timer,chrono,test" ./b2 install --prefix=$root/Boost -96 ln -s $root/Boost/include/boost /usr/include/boost配置环境变量echo "# Boost" >> /etc/profile echo "export CPLUS_INCLUDE_PATH=$root/Boost/include" >> /etc/profile echo "export LD_LIBRARY_PATH=$root/Boost/lib" >> /etc/profile echo "# End Boost" >> /etc/profile重加载环境变量source /etc/profile验证cat $root/Boost/include/boost/version.hpp
推荐直播
-
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中 -
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中
热门标签