解决方案:写代码、搜问题,全部都在终端完成!如此编程神器,是时候入手了
优采云 发布时间: 2022-11-07 22:15解决方案:写代码、搜问题,全部都在终端完成!如此编程神器,是时候入手了
贾浩南来自奥飞寺
量子位报告 | 公众号QbitAI
无论你是程序员还是老司机,在编码过程中总会遇到不懂的问题。
最常见的方法是去论坛问,谷歌搜索,需要在网页和编译页面之间反复切换,即使有两个大的分屏,也会影响工作效率。
不过现在这个问题有望解决了,一个方便的编程问答工具codequestion可以帮到你。
直接在终端输入“你想问的问题”,用普通的自然语言,就像你去谷歌搜索一样。
然后就可以立即返回详细的操作教程,直接在终端中以对话的形式实现对操作手册的查询。
这样一个有用的工具安装起来并不复杂。
安装教程
安装 codequestion 的最简单方法是通过 pip 或 PyPI:
pip 安装代码问题
当然,你也可以将 Github 上的项目克隆到本地:
点安装 git+
安装 codequestion 需要 Python 3.6 或更高版本。
对于 Linux 系统,您可以直接运行项目,但 Windows 和 Mac 需要安装额外的项目。
Windows需要安装C++ Build Tools,地址如下:
PyTorch for Windows 的二进制文件不在 PyPI 上,安装时必须添加以下 url 链接:
pip install txtai -f
对于 Mac,您需要在安装前运行以下命令:
冲泡安装 libomp
安装步骤已经完成,我们来看看示例测试
AI驱动的问答机制
codequestion下载完成后,需要安装模型。
python -m codequestion.download
该模型的核心是作者 David Mezzetti 之前开发的 AI 算法 txtai。
txtai 支持构建文本索引、执行相似性搜索以及基于抽取式问答创建系统。
作者还提供了预训练模型:
解压 cqmodel.zip ~/.codequestion
codequestion 是可自定义的,可以针对自定义问答库运行。目前,仅支持 Stack Exchange 存储库中的问题帮助,未来还会提供更多支持选项。
模型安装完成后,可以使用以下命令运行测试:
mkdir -p ~/.codequestion/test/stackexchangewget test/stackexchange/query.txt -P ~/.codequestion/test/stackexchangewget -C ~/.codequestion/test -xvzf Stsbenchmark.tar.gzpython -m codequestion.evaluate -s测试
该代码包括将测试数据下载到 ~/.codequestion/test。
下表显示了各种词向量/分数组合的测试结果。
SE 300d 词向量和 BM25 分数在这个数据集中表现最好。即使减少了词汇量的 Stack Exchange 问题,SE 300d - BM25 在 STS 基准测试中的表现也相当不错。
之前,Qubit 也推出了类似的 Linux 命令行查询工具,也是直接在终端输入问题,返回答案。
不同的是,当时的工具howdoi在网上技术论坛上搜索已有的答案,范围相对有限。
那么本次介绍的codequestion的AI驱动机制的先进点是什么?
基本的
第 1 步:原创数据转储处理
Stack Exchange 存储库中的原创 7z XML 转储通过一系列步骤进行处理。
仅检索高分问题和答案并将其存储在模型中。
问题和答案被合并到一个名为 questions.db 的 SQLite 文件中。questions.db 的架构如下:
Id INTEGER PRIMARY KEYSource TEXTSourceId INTEGERDate DATETIMETags TEXTQuestion TEXTQuestionUser TEXTAnswer TEXTAnswerUser TEXTReference TEXT
第 2 步:搜索
codequestion 工具为 questions.db 构建句子嵌入索引。
questions.db 模式中的每个问题都被标记化并解析为词嵌入。
词嵌入模型是基于 questions.db 构建的自定义 fastText 模型。一旦将标记转换为词嵌入,就会创建加权句子嵌入。
词嵌入使用 BM25 索引来加权存储库中的所有令牌。但是有一个重要的修改:标签用于增加标签标签的权重。
一旦 question.db 被转换为句子嵌入的集合,它们就会被规范化并存储在 Faiss 中,从而可以进行快速的相似性搜索。
第三步:查询
codequestion 以与索引相同的方式标记每个查询。这些标记用于构建句子嵌入。根据 Faiss 索引查询这个嵌入的句子,以找到最相似的问题。
线下开发的好帮手
可以看出,这个codequestion工具的优势在于灵活的搜索和匹配问题,以及根据问题答案的质量选择好的答案的能力。
这是使用 关键词 匹配搜索答案无法匹配的类似工具。
codequestion 目前的限制是它只支持 Stack Exchange 中的问题。但是,作者承诺以后会添加更多的库。
不少网友反应,这个工具非常好用,尤其是支持本地库的问答机制,对于有离线开发需求的程序员很有帮助。
这个怎么样?如果这个工具对你有用,那就赶紧上手吧~
参考链接和门户:
Github地址:
C++ Build Tools安装地址:
qubits之前介绍的Linux命令行查询工具:
- 结束-
量子比特QbitAI·头条号签约
免费的:免费数据采集数据软件有哪些?
市面上有很多采集软件打着免费的名义宣传软件,实际上是通过提供一些增值服务来收费的。
软件收费合理,支持开发者提供更好的服务。在选择软件的时候,一定要选择适合自己的软件,性价比高的软件。接下来我们来说说软件价格和功能的对比。
数据采集软件有老树数据采集软件、优采云数据采集、优采云、优采云、吉索克、优采云、网络矿工,前嗅,精神,优采云,出生地,梦蝶。
一、性价比对比
先说老树数据采集软件,这个老树数据采集不是老树数据采集,这个采集软件是用日常卡收费的,或者你可以试用,终身卡也很便宜。采集 的数量没有限制,采集 的速率也没有限制。软件地址为100和59416在评论区。
接下来,让我们谈谈打着免费的幌子免费收费的软件。有优采云、优采云、优采云等。这些都是免费使用的,但是限制采集费率和数量,一般有各种限制,除非付费升级。
软件功能对比
资料很多采集大多是不懂网页规则的新手,也有不懂爬虫功能的。渴望拥有傻瓜式数据采集软件。优采云采集, 优采云采集器 规则很多,内置模板很少。前嗅很厉害,但不适合小白。优采云导出数据时可能会出现问题。适合新手和高手的软件是老树数据采集。软件内置多个适合小白的采集模板。也适合master采集,不限制采集的数量和速率。