小林同学智能AI大模型语音助手

      闲来无事,想起吃灰的树莓派拿来做点什么,貌似去年还专门买了个麦克风还没怎么用过。正好拿来做个类似小爱智能语音助手的小林同学,现在智能助手不接入大模型都不好意思说出来,当然小林同学没有小爱同学的米家生态功能,后续如果加入多模态图片识别貌似会更有点意思。       智能助手涉及到的技术主要

RAG知识库之多表示索引

      在朴素RAG中通常会对文档、文本进行分块后进行文档嵌入,对所有文件、文本都没有经过采用Chunk方法可能有时候效果不是和好,尽管有着各种分块策略有针对大文件的、针对小文件的策略,但都难免可能会造成上下文语义丢失。       分块通常有两个非常重要的参数chunk_size、chunk_

使用Langchain与ChatGLM实现本地知识库(二)

  大语言模型也只是将用户提供的大规模数据集训练而来,也并非万能的什么都知道,特别是一些小众知识、内部数据或私密的个人数据等,此时ChatGLM3肯定会胡乱回答就是ChatGPT4也不一定能给出满意回答;不少公司、个人都有自己的知识库或日志等此时如有可将这些数据以某种方式挂在大模型上此时在知识库存在

Antlr一个领域语言利器——入门篇

  Antlr(Another Tool for Language Recognition)为开源的语法分析器,可以将输入的内容自动生成语法树;开发者可以使用它自定义自己的领域语言,只需创建语法规则文件,使用Antlr根据该规则文件生成相对应的类,再这些类的基础上我们可以用于实现自己的功能;Antl

基于LSM的Key-Value数据库实现WAL篇

  上篇文章简单的实现了基于LSM数据库的初步版本,在该版本中如数据写入到内存表后但还为持久化到SSTable排序字符串表,此时正好程序崩溃,内存表中暂未持久化的数据将会丢失。   上篇文章简单的实现了基于LSM数据库的初步版本,在该版本中如数据写入到内存表后但还未持久化到SSTable排序字符串表

LSM-Tree:原理与介绍

  LSM Tree(log-structured merge-tree)是一种文件组织结构的数据结构,目前在不少数据库中都有使用到,如SQLite、LevelDB、HBase在Mongodb中也有一个LSM引擎;   在传统的关系型数据库中使用的是B-/B+ tree作为索引的数据结构,B tre

CEP复杂事件处理简单介绍

  CEP(Complex Event Processing)复杂事件处理,这里的复杂事件指的是业务规则的复杂, 随着互联网、物联网技术的发展现在传感器装得越来越多,目前实时流数据业务处理越来越广,业务规则也越来越复杂。   可以说CEP就是一种基于事件的数据流分析技术,它通过过滤、聚合、关联、状态

Apache-Flink中的Java泛型与Lambda表达式

  在使用Java编写apache-flink程序的时候相信很多新手都遇到下面这样的异常; org.apache.flink.api.common.functions.InvalidTypesException: The return type of function 'main(DemoApp.

海南IT互联网招聘数据简单分析

  前两天文章说了海南IT互联网相关数据提到公司数量很多,但招聘的岗位很少的问题,但由于只是简单截图了相关招聘数据做就吐槽招聘数据少。可能数据维度太少、没做横向对比,导致看上去不太不太科学、客观。但该篇文章的结论是否有问题呢?   公司增、税收增、人员不增的说法是否站得住脚,这篇文章将主流招聘网站的

Spark Streaming数据限流简述

  Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理;   流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;   由于流处理的数据流特征,使之数据流具有不可预测性,而且数据处理
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×