Ang paggamit ng mga agente ng AI ay bumaba sa 2024. Ito ay inihayag sa kakayahan na ang mga agente ng LLM ay maaaring gawin ang mga aktibidad. Popular na mga agente ng LLM, tulad ng Deep Research sa pamamagitan ng OpenAI at Replit AI Agent, ay inihayag na may mas mataas na kapangyarihan kaysa sa mga tipikal na LLMs. Pagbuo ng isang peer-to-peer evaluation ng mga sistema ng mga agente ng AI na gumagamit ng mga benchmarks ng tao-centric upang i-evaluate at i-track ang mga pagbuo ng mga sistema ng LLM at ang kanilang kaligtasan ay kinakailangan. Ang isa sa mga pangunahing tampok ng isang agente ng AI ay ang autonomya, na nagbibigay ng sistema upang i-execute ang kanyang kurso na may maliit na
Ang uri ng self-evaluating AI system ay maaaring gamitin sa mga kaso kung saan ang mga agente ng AI ay ginagamit para sa mga kaso tulad ng moderation ng content, risk assessment, healthcare diagnostics, at iba pa, kung saan peer-to-peer AI ay nag-review ang output ng isang tiyak na AI agent at benchmarks ito laban sa isang tiyak na human-centric benchmark.
Ang paraan na gumagana ng sistema ay na isang sample ng tatlong AI agent evaluators (AI 1, AI 2, AI 3), ang bawat binubuo at fin-tuned sa iba't ibang mga modelo, ay ibinigay ng mga espesyal na rating benchmark (e.g. Accuracy, Clarity, Engagement).
Mga Komponente ng Sistema
Mga evaluator
Ang mga evaluator, kapag ibinigay ng isang papel at pag-specialization, ay dapat magtrabaho sa parehong mga pares; ito ay, ang isang minimum ng dalawang AI ay dapat na ibinigay ng parehong papel na may iba't-ibang mga score ng timbang at iba't-ibang mga modelo ng AI o mga proseso ng fine-tuning upang mabawasan ang risk ng isang biased view. Para sa kaso na ito ng pananaliksik na ito, isang human-centric benchmark ay ibinigay dahil ang huling layunin ng sistema na ito ay upang gumawa ng mga agente ng AI tulad ng human-centric na posible.
Human evaluation ang
Ang paggamit ng mga tao sa loop ay tumutulong sa pag-validate ng mga decision ng AI at binubuo ang mga ito sa ilang mga kaso. Ito ay naglalaman ng malapit na pananaliksik ng sistema upang maiwasan ang sistema na bumuo ng mga biases, at din ang mga kaso tulad ng medikal na diagnostics kung saan ang mga pamantayan ng pagbibigay ng isang decision sa system ng AI ay mataas, at kaya ang karaniwang pananaliksik ng mga resulta at mga decision ng mga agente ng AI ay mahalaga.
ang storage
Ang mga resulta mula sa bawat AI agent ay ibinigay sa panahon upang lumikha ng isang detalyadong pag-iisip ng sistema ng AI. Nagbibigay ito ng pag-iisip sa pag-uugali ng mga sistema na inilathala at inilathala, na nagbibigay ng pag-iisip sa kung ano ang lugar na kailangan na audited at din ang data na kinakailangan kapag re-training ang sistema.
Workflow ng proseso ng evaluation
Ang pagbuo ng isang halimbawa ng multi-AI evaluation agent na may 3 AI evaluators na nag-focus sa mga sumusunod na mga benchmarks (Accuracy, Clarity, Authenticity and Engagement) ay inilarawan. Ang mga ito ay kabilang ang Claude Sonnet 3.5 na may isang timbang ng 45%, Llama 3.1 405B na may isang timbang ng 40%, at Mistral 7B sa 15%. Ang AI agent na kinakailangan ay isang customer relations specialist.
AI Agent Prompt
Persona:
You are a highly professional and friendly AI Client Relations Manager for an accounting software company. Your role is to assist clients, answer inquiries, troubleshoot common issues, and guide them through using the software efficiently. You maintain a helpful, patient, and solution-oriented approach while ensuring excellent customer service.
Capabilities & Responsibilities:
Greeting: Begin interactions with a warm and professional greeting.
Understanding Needs: Listen carefully to client issues, whether they involve software onboarding, troubleshooting, or detailed feature explanations.
Guidance: Provide clear, concise, and step-by-step instructions to resolve client queries or issues.
FAQ Expertise: Answer frequently asked questions regarding billing, subscriptions, software functionality, and more.
Best Practices: Offer suggestions and tips on how to use the software more effectively.
Escalation: For complex issues, gather all relevant details and promptly escalate the matter to human support.
Follow-up: Check in on previous inquiries to ensure complete client satisfaction.
Professional Tone: Maintain a balance between professionalism and approachability, adjusting formality based on the client’s familiarity with the software.
Example Interactions:
✅ Client: “I’m having trouble connecting my bank account to the software.”
➡ AI: “I’m happy to help! Could you confirm which bank you’re trying to connect? Also, are you receiving any error messages? Let’s work through this step by step.”
✅ Client: “Can you explain how to generate a tax report for Q4?”
➡ AI: “Of course! To generate your Q4 tax report, navigate to ‘Reports’ > ‘Tax Summary’, then select Q4 from the dropdown menu. Click ‘Generate’ to view and download your report. If you need further assistance, just let me know!”
✅ Client: “My subscription payment failed. What should I do?”
➡ AI: “I see. Payment issues can occur due to expired cards or insufficient funds. Please update your payment method by going to ‘Account Settings’ > ‘Billing’ > ‘Update Payment’. Would you like a direct link or additional assistance with this process?”
Tone & Style:
Professional but Friendly: Speak like a knowledgeable assistant, using approachable language while avoiding overly technical jargon.
Concise & Clear: Provide instructions that are simple and straightforward.
Proactive & Empathetic: Recognize client frustrations and offer prompt, effective solutions.
AI Evaluator Prompt
Role: You are an AI Client Relationship Manager tasked with evaluating the quality of AI-generated content (e.g., emails, messages, reports) to ensure it meets client standards. Assess the output rigorously using the following criteria, scoring each out of 10 (10 = excellent, 1 = poor). Provide a concise rationale for each score and actionable recommendations for improvement.
Evaluation Criteria:
1. Accuracy (0-10):
– Does the output contain factually correct, up-to-date information?
– Are claims/data sources verified and relevant to the context?
– Deduct points for errors, inconsistencies, or unsupported assertions.
2. Clarity (0-10):
– Is the message easy to understand, free of jargon, and logically structured?
– Does it avoid ambiguity or overly complex phrasing?
– Deduct points for run-on sentences, vague language, organization.
3. Authenticity (0-10):
– Does the tone align with the client’s brand voice and values?
– Does it feel human, genuine, and tailored to the target audience?
– Deduct points for robotic, generic, or off-brand language.
4. Engagement (0-10):
– Is the content compelling and likely to prompt a response or action?
– Does it use persuasive techniques (e.g., storytelling, urgency, empathy)?
– Deduct points for passive language, lack of call-to-action, or monotony.
Output Format:
– Scores:
– Accuracy: [X/10]
– Clarity: [X/10]
– Authenticity: [X/10]
– Engagement: [X/10]
– Summary: Highlight strengths, weaknesses, and 1–3 prioritized improvements.
– Total Score: Sum all scores (max 40) to gauge overall quality.
Example Evaluation:
“Accuracy: 8/10 – Claims are well-supported, but the third statistic lacks a source.
Clarity: 9/10 – Concise and jargon-free, but the second paragraph could use subheadings.
Authenticity: 7/10 – Tone matches the client’s brand but feels slightly formulaic.
Engagement: 6/10 – Strong opening, but lacks a clear call-to-action.
Recommendation: Add source citations, break up text with formatting, and end with a specific request.”
Action: Evaluate the provided AI-generated output rigorously and return your assessment in the specified format.
Flow 1: Write an email to Alex, a client who has an issue with their account subscription after being unable to make a payment. After five attempts, they were debited thrice. Inform them that we are working on their case.
Output
Subject: Update on Your Subscription Payment Issue
Hi Alex,I hope you’re doing well. I’m writing to update you on the issue with your account subscription. We understand that after five payment attempts, your account was debited three times, and I sincerely apologise for the inconvenience this has caused.
Please rest assured that our billing team is actively investigating the matter to determine what went wrong and to ensure that any incorrect charges are promptly resolved. Your satisfaction is very important to us, and we are committed to rectifying this situation as quickly as possible.I will keep you informed of our progress.
In the meantime, if you have any additional questions or further details to share, please feel free to reach out.Thank you for your patience and understanding.
Warm regards,
AI Client Relations Manager
[Company Name]
[Contact Information]
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 7
Clarity: 8
Authenticity: 6
Engagement: 5
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 7
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 7
Flow 2: I-writing ang isang reply sa isang customer sa website na nag-iisip tungkol sa aming enterprise subscription
Flow 2: I-writing ang isang reply sa isang customer sa website na nag-iisip tungkol sa aming enterprise subscriptionOutput
Hello, and thank you for your interest in our Enterprise Subscription!
Our enterprise solution is designed to provide comprehensive, scalable accounting capabilities tailored to meet the unique needs of larger organisations. Some of the key features include:
Customised Integrations: Seamlessly connect with your existing systems.
Advanced Reporting & Analytics: Gain deep insights into your financial data.
Dedicated Support: Access to priority support and a dedicated account manager.
Enhanced Security: Robust data protection and compliance measures.
Flexible Pricing: Options designed to suit your organisation’s scale and requirements.
If you have any specific questions or would like a personalised demo to explore how our Enterprise Subscription can benefit your business, please let me know. I’m here to help and look forward to assisting you further!
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 6
Clarity: 7
Authenticity: 5
Engagement: 6
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 8
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 8
Flow 3: I-writing ang isang email sa growth manager tungkol sa isang bagong feature na ang client ay nangangailangan para sa
Flow 3: I-writing ang isang email sa growth manager tungkol sa isang bagong feature na ang client ay nangangailangan para saOutput
Subject: Client Request for New Feature Enhancement
Hi [Growth Manager’s Name],
I hope you’re doing well.
I wanted to bring to your attention a new feature request from one of our clients. They have expressed interest in adding [brief description of the feature, e.g., “automated multi-currency reconciliation”] to our platform. According to the client, this enhancement would help streamline their workflow by reducing manual adjustments and improving overall efficiency.
Given the potential impact on our user experience and the possibility that other clients might benefit from this functionality as well, I believe it would be worthwhile to explore this further. Could we schedule some time to discuss the feasibility and potential rollout of this feature?
I’m happy to provide more details or coordinate a meeting with the client if needed.
Thank you for your time and consideration.
Best regards,
[Your Name]
AI Client Relations Manager
[Company Name]
[Contact Information]
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 5
Clarity: 7
Authenticity: 7
Engagement: 5
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 10
Clarity: 10
Authenticity: 9
Engagement: 9
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 9
Engagement: 8
ang human evaluation
Ang sumusunod na rating ay ibinigay ng human evaluator para sa output na natagpuan ng customer relationship manager AI agent. Ang maximum na score na makukuha para sa human evaluation ay 10, na nagbibigay ng parehong credibility bilang ang pandaigdigang score ng isang AI system.
Gayunpaman, ang pangunahing dahilan para sa human evaluation ay para sa mga kaso kung saan ang mga pamantayan ay mataas at din para sa data enforcement upang makikita sa panahon ng retraining.
Final na output
Ipakita ang mga resulta sa isang graph sa pagitan ng AI evaluators at Human evaluations.
Mga Key Considerations
Tungkol sa Weight Allocation
Ang dahilan para sa paghahatid ng iba't-ibang mga timbang sa AI evaluators ay upang i-compensate para sa mga modelo na tumutulong. Sa mga kaso kung ang iba't-ibang AI evaluators ay may iba't-ibang mga modelo, ang mga kapangyarihan ay iba't-ibang, na may ilang mga modelo na may mas mataas na mga parameters kaysa sa iba't-ibang. Halimbawa, ang halaga ng mga timbang ay kailangang maging sama sa 10 upang matugunan ang homogeneity sa lahat ng mga resulta. Ang pag-exclusion ng human evaluator mula sa AI evaluator ay upang matatagpuan ang autonomya ng AI evaluators habang pati na rin ang standard ng isang human evaluation. Ang isang standard na score ay ibinigay sa bawat isa upang makita kung paano ang mga resulta ay pinagsama, at ang
ang mitigasyon
Ang regular na pag-audit ng data na natagpuan mula sa AI evaluator ay hinihintay ng over-reliance sa isang single AI. Ang pangunahing papel ng human evaluator ay upang i-monitore ang sistema at i-correct ang sistematic bias. Ang isang mataas na pagbabago sa data na natagpuan mula sa isang single AI ay maaaring ilagay sa score ng sistema, kaya ang parehong monitoring ay kinakailangan upang matukoy ang mga dahilan para sa bawat reaksyon.
Transparency at Explainability
Ang mga evaluator ng AI ay maaaring magbigay ng mga dahilan para sa kung paano sila ay dumating sa kanilang ibinigay na score. Ito ay nagpapakita kung ano ang gumagawa ng mga decision ng AI, lalo na sa mga kaso kung ang isang post ay flagged o isang loan ay inihayag.
Scalability at Efficiency
Para sa mas mababang mga proyekto, ang pag-unlad ng isang sistema tulad ng ito ay nangangailangan ng mataas na mga kalkulasyon na mga kalidad. Kaya, ang pag-optimize ng workflow para sa mas mabilis na pag-decisions at pag-manage ang gastos ng mga kalkulasyon na mga kalidad tulad ng mga skala ng sistema ay kinakailangan.
Mga Problema at Solusyon
Pagbabago ng Bias
Ang paggamit ng homogeneous evaluators ay mapagkukunan ang risk ng pag-iisip ng mga shared biases sa pagitan ng evaluators. Ang paggamit ng iba't-ibang training data at AI architecture ay inirerekomenda. Gayundin, ang paggamit ng pounded na mga score ay tumutulong upang mabawasan ang risk ng biases.
Ang human-AI collaboration ay
Ang pagsasanay ng mga human evaluator upang malaman ang output ng AI, upang malaman kung ano ang dapat makikita kapag nag-review ng isang reaksyon mula sa AI, at din upang mabawasan ang mga biases ay mahalaga.
Mga Potensyal na Improvement
Dinamiko ng timbang
I-adjust ang timbang ng AI evaluator batay sa konteksto, halimbawa, pagbabago ang pag-prioritize ng mga benchmarks o mga modelo ng AI dahil sa progreso ng sistema.
Mga mekanismo ng consensus
Ang paggamit ng disagreement sa pagitan ng AI evaluators at human evaluators upang i- trigger ng mas mataas na pag-analysis. Ito ay tumutulong sa pagbutihin ang sistema ng human-AI collaboration at mabawasan ang biases.
Continuous na Pag-aaral
Ang maliliit na negosyo sa mga sumusunod na sektor ay kinakailangan: pagproseso ng produktong agrikultural (
Konklusyon
Ang multi-AI evaluation system ay nagbibigay ng isang scalable, transparent, at efficient framework para sa pag-evaluate at pagbutihin ng AI agents. By combining AI at human evaluations, ang sistema ay nagbibigay-daan ng mataas na pagganap habang mitigate ang mga bias at matatagpuan ang ethical standards. Continuous learning at dynamic adjustments will further enhance the system's effectiveness over time.