解决方案:写代码、搜问题,全部都在终端完成!如此编程神器,是时候入手了

优采云 发布时间: 2022-11-07 22:15

  解决方案:写代码、搜问题,全部都在终端完成!如此编程神器,是时候入手了

  贾浩南来自奥飞寺

  量子位报告 | 公众号QbitAI

  无论你是程序员还是老司机,在编码过程中总会遇到不懂的问题。

  最常见的方法是去论坛问,谷歌搜索,需要在网页和编译页面之间反复切换,即使有两个大的分屏,也会影响工作效率。

  不过现在这个问题有望解决了,一个方便的编程问答工具codequestion可以帮到你。

  直接在终端输入“你想问的问题”,用普通的自然语言,就像你去谷歌搜索一样。

  然后就可以立即返回详细的操作教程,直接在终端中以对话的形式实现对操作手册的查询。

  这样一个有用的工具安装起来并不复杂。

  安装教程

  安装 codequestion 的最简单方法是通过 pip 或 PyPI:

  pip 安装代码问题

  当然,你也可以将 Github 上的项目克隆到本地:

  点安装 git+

  安装 codequestion 需要 Python 3.6 或更高版本。

  对于 Linux 系统,您可以直接运行项目,但 Windows 和 Mac 需要安装额外的项目。

  Windows需要安装C++ Build Tools,地址如下:

  PyTorch for Windows 的二进制文件不在 PyPI 上,安装时必须添加以下 url 链接:

  pip install txtai -f

  对于 Mac,您需要在安装前运行以下命令:

  冲泡安装 libomp

  

  安装步骤已经完成,我们来看看示例测试

  AI驱动的问答机制

  codequestion下载完成后,需要安装模型。

  python -m codequestion.download

  该模型的核心是作者 David Mezzetti 之前开发的 AI 算法 txtai。

  txtai 支持构建文本索引、执行相似性搜索以及基于抽取式问答创建系统。

  作者还提供了预训练模型:

  解压 cqmodel.zip ~/.codequestion

  codequestion 是可自定义的,可以针对自定义问答库运行。目前,仅支持 Stack Exchange 存储库中的问题帮助,未来还会提供更多支持选项。

  模型安装完成后,可以使用以下命令运行测试:

  mkdir -p ~/.codequestion/test/stackexchangewget test/stackexchange/query.txt -P ~/.codequestion/test/stackexchangewget -C ~/.codequestion/test -xvzf Stsbenchmark.tar.gzpython -m codequestion.evaluate -s测试

  该代码包括将测试数据下载到 ~/.codequestion/test。

  下表显示了各种词向量/分数组合的测试结果。

  SE 300d 词向量和 BM25 分数在这个数据集中表现最好。即使减少了词汇量的 Stack Exchange 问题,SE 300d - BM25 在 STS 基准测试中的表现也相当不错。

  之前,Qubit 也推出了类似的 Linux 命令行查询工具,也是直接在终端输入问题,返回答案。

  不同的是,当时的工具howdoi在网上技术论坛上搜索已有的答案,范围相对有限。

  那么本次介绍的codequestion的AI驱动机制的先进点是什么?

  基本的

  第 1 步:原创数据转储处理

  Stack Exchange 存储库中的原创 7z XML 转储通过一系列步骤进行处理。

  仅检索高分问题和答案并将其存储在模型中。

  

  问题和答案被合并到一个名为 questions.db 的 SQLite 文件中。questions.db 的架构如下:

  Id INTEGER PRIMARY KEYSource TEXTSourceId INTEGERDate DATETIMETags TEXTQuestion TEXTQuestionUser TEXTAnswer TEXTAnswerUser TEXTReference TEXT

  第 2 步:搜索

  codequestion 工具为 questions.db 构建句子嵌入索引。

  questions.db 模式中的每个问题都被标记化并解析为词嵌入。

  词嵌入模型是基于 questions.db 构建的自定义 fastText 模型。一旦将标记转换为词嵌入,就会创建加权句子嵌入。

  词嵌入使用 BM25 索引来加权存储库中的所有令牌。但是有一个重要的修改:标签用于增加标签标签的权重。

  一旦 question.db 被转换为句子嵌入的集合,它们就会被规范化并存储在 Faiss 中,从而可以进行快速的相似性搜索。

  第三步:查询

  codequestion 以与索引相同的方式标记每个查询。这些标记用于构建句子嵌入。根据 Faiss 索引查询这个嵌入的句子,以找到最相似的问题。

  线下开发的好帮手

  可以看出,这个codequestion工具的优势在于灵活的搜索和匹配问题,以及根据问题答案的质量选择好的答案的能力。

  这是使用 关键词 匹配搜索答案无法匹配的类似工具。

  codequestion 目前的限制是它只支持 Stack Exchange 中的问题。但是,作者承诺以后会添加更多的库。

  不少网友反应,这个工具非常好用,尤其是支持本地库的问答机制,对于有离线开发需求的程序员很有帮助。

  这个怎么样?如果这个工具对你有用,那就赶紧上手吧~

  参考链接和门户:

  Github地址:

  C++ Build Tools安装地址:

  qubits之前介绍的Linux命令行查询工具:

  - 结束-

  量子比特QbitAI·头条号签约

  免费的:免费数据采集数据软件有哪些?

  市面上有很多采集软件打着免费的名义宣传软件,实际上是通过提供一些增值服务来收费的。

  软件收费合理,支持开发者提供更好的服务。在选择软件的时候,一定要选择适合自己的软件,性价比高的软件。接下来我们来说说软件价格和功能的对比。

  数据采集软件有老树数据采集软件、优采云数据采集、优采云、优采云、吉索克、优采云、网络矿工,前嗅,精神,优采云,出生地,梦蝶。

  

  一、性价比对比

  先说老树数据采集软件,这个老树数据采集不是老树数据采集,这个采集软件是用日常卡收费的,或者你可以试用,终身卡也很便宜。采集 的数量没有限制,采集 的速率也没有限制。软件地址为100和59416在评论区。

  接下来,让我们谈谈打着免费的幌子免费收费的软件。有优采云、优采云、优采云等。这些都是免费使用的,但是限制采集费率和数量,一般有各种限制,除非付费升级。

  

  软件功能对比

  资料很多采集大多是不懂网页规则的新手,也有不懂爬虫功能的。渴望拥有傻瓜式数据采集软件。优采云采集, 优采云采集器 规则很多,内置模板很少。前嗅很厉害,但不适合小白。优采云导出数据时可能会出现问题。适合新手和高手的软件是老树数据采集。软件内置多个适合小白的采集模板。也适合master采集,不限制采集的数量和速率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线